脚本专栏 
首页 > 脚本专栏 > 浏览文章

python处理“&#”开头加数字的html字符方法

(编辑:jimmy 日期: 2025/5/8 浏览:3 次 )

python如何处理“&#”开头加数字的html字符,比如:风水这类数据。

用python抓取数据时,有时会遇到想要数据是以“&#”开头加数字的字符,比如图中所示的这些:

风水大术士

python处理“&#”开头加数字的html字符方法

python处理“&#”开头加数字的html字符方法

这些字符需要再次转换才能变回中文内容。这些字符需要再次转换才能变回中文内容。

Python2.7版本

在python2.7版本中,使用import HTMLParser

python处理“&#”开头加数字的html字符方法

定义变量,再定义转换代码。

python处理“&#”开头加数字的html字符方法

代码中最重要的是“data_parser = HTMLParser.HTMLParser()”,通过此才能用“.unescape()”方法。 

python处理“&#”开头加数字的html字符方法

测试运行,这串字符串正常输出了中文。

python处理“&#”开头加数字的html字符方法

Python3.7+版本

在最新python版本中,不能用上面的导入方法。可以用"import html"或者“from html import unescape”。这里使用"import html"做测试。

python处理“&#”开头加数字的html字符方法

导入html后,直接用".unescape()"来处理字符串。

python处理“&#”开头加数字的html字符方法

运行后,正常转换成了中文字符。

python处理“&#”开头加数字的html字符方法

感谢大家的阅读和对的支持。

上一篇:python 实现将文件或文件夹用相对路径打包为 tar.gz 文件的方法
下一篇:python-pyinstaller、打包后获取路径的实例
一句话新闻
高通与谷歌联手!首款骁龙PC优化Chrome浏览器发布
高通和谷歌日前宣布,推出首次面向搭载骁龙的Windows PC的优化版Chrome浏览器。
在对骁龙X Elite参考设计的初步测试中,全新的Chrome浏览器在Speedometer 2.1基准测试中实现了显著的性能提升。
预计在2024年年中之前,搭载骁龙X Elite计算平台的PC将面世。该浏览器的提前问世,有助于骁龙PC问世就获得满血表现。
谷歌高级副总裁Hiroshi Lockheimer表示,此次与高通的合作将有助于确保Chrome用户在当前ARM兼容的PC上获得最佳的浏览体验。
友情链接:杰晶网络 DDR爱好者之家 南强小屋 黑松山资源网 白云城资源网 网站地图 SiteMap