相关疑难解决方法(0)

在Python字符串中解码HTML实体?

我正在使用Beautiful Soup 3解析一些HTML,但它包含HTML实体,Beautiful Soup 3不会自动为我解码:

>>> from BeautifulSoup import BeautifulSoup

>>> soup = BeautifulSoup("<p>&pound;682m</p>")
>>> text = soup.find("p").string

>>> print text
&pound;682m
Run Code Online (Sandbox Code Playgroud)

我怎样才能解码HTML实体中text获得"£682m",而不是"&pound;682m".

html python html-entities

239
推荐指数
4
解决办法
20万
查看次数

62
推荐指数
6
解决办法
6万
查看次数

7
推荐指数
1
解决办法
1万
查看次数

从转义的html - >到常规的html? - Python

我使用BeautifulSoup来处理我通过REST API收集的XML文件.

响应包含HTML代码,但BeautifulSoup可以转义所有HTML标记,因此可以很好地显示.

不幸的是我需要HTML代码.


我将如何继续将转义的HTML转换为正确的标记?


非常感谢帮助!

html python lxml escaping beautifulsoup

6
推荐指数
1
解决办法
3411
查看次数

将数字字符引用表示法转换为unicode字符串

是否有标准,最好是Pythonic,将&#xxxx;符号转换为正确的unicode字符串?

例如,

&#1502;&#1508;&#1490;&#1513;&#1497;
Run Code Online (Sandbox Code Playgroud)

应转换为:

?????
Run Code Online (Sandbox Code Playgroud)

它可以很容易地完成 - 使用字符串操作,但我想知道是否有一个标准的库.

python unicode encoding

6
推荐指数
1
解决办法
1808
查看次数