相关疑难解决方法(0)

在Python字符串中解码HTML实体?

我正在使用Beautiful Soup 3解析一些HTML,但它包含HTML实体,Beautiful Soup 3不会自动为我解码:

>>> from BeautifulSoup import BeautifulSoup

>>> soup = BeautifulSoup("<p>&pound;682m</p>")
>>> text = soup.find("p").string

>>> print text
&pound;682m
Run Code Online (Sandbox Code Playgroud)

我怎样才能解码HTML实体中text获得"£682m",而不是"&pound;682m".

html python html-entities

239
推荐指数
4
解决办法
20万
查看次数

如何使用Python/Django执行HTML解码/编码?

我有一个html编码的字符串:

'''&lt;img class=&quot;size-medium wp-image-113&quot;\
 style=&quot;margin-left: 15px;&quot; title=&quot;su1&quot;\
 src=&quot;http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg&quot;\
 alt=&quot;&quot; width=&quot;300&quot; height=&quot;194&quot; /&gt;'''
Run Code Online (Sandbox Code Playgroud)

我想将其改为:

<img class="size-medium wp-image-113" style="margin-left: 15px;" 
  title="su1" src="http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg" 
  alt="" width="300" height="194" /> 
Run Code Online (Sandbox Code Playgroud)

我希望将其注册为HTML,以便浏览器将其呈现为图像,而不是显示为文本.

我已经在C#中找到了如何做到这一点,但在Python中却没有.有人可以帮我吗?

谢谢.

编辑:有人问为什么我的字符串存储就像那样.这是因为我正在使用网络抓取工具"扫描"网页并从中获取某些内容.该工具(BeautifulSoup)以该格式返回字符串.

有关

python django html-encode

122
推荐指数
9
解决办法
17万
查看次数

用Python 2.6中的相应utf-8字符替换html实体

我有一个像这样的HTML文本:

&lt;xml ... &gt;
Run Code Online (Sandbox Code Playgroud)

我想把它转换成可读的东西:

<xml ...>
Run Code Online (Sandbox Code Playgroud)

用Python做任何简单(快速)的方法吗?

python python-2.6 html-entities

13
推荐指数
1
解决办法
2万
查看次数

<>更改为&lt; 和&gt; 在python中使用beautifulsoup解析html

在使用Beautifulsoup处理html时,<和>被转换为&lt;&gt;,因为标签锚都被转换,整个汤失去了它的结构,任何建议?

html python parsing beautifulsoup

6
推荐指数
1
解决办法
5403
查看次数

如何输出 XML 实体引用

我正在使用 Python xml.etree.ElementTree 来输出 XML。我想用实体引用输出它,解析 XML 时将替换该实体引用。

通常“&”会被转义,&amp;因为“&”用于声明实体引用。不过,我确实想写一个实体参考。例如,我想编写一个包含实体引用的 XML 文件&manifestName;

>>> from xml.etree.ElementTree import Element, tostring
>>> manifest = Element('manifest')
>>> manifest.text = '&manifestName;'
>>> tostring(manifest)
Run Code Online (Sandbox Code Playgroud)

它返回一个转义的&符号:

'<manifest>&amp;manifestName;</manifest>'
Run Code Online (Sandbox Code Playgroud)

所需的 XML 为:

'<manifest>&manifestName;</manifest>'
Run Code Online (Sandbox Code Playgroud)

我尝试过各种转义技巧,例如,,,&#38;但它们不起作用。它们包含的 & 符号始终呈现为。\&&&&amp;

python xml elementtree

5
推荐指数
1
解决办法
1533
查看次数

从字符串中删除反斜杠

我有一个像一个句子的字符串 I don't want it, there'll be others

所以文字看起来像这样 I don\'t want it, there\'ll be other

由于某种原因,\附带的文字旁边'.它是从另一个来源读入的.我想删除它,但不能.我试过了. sentence.replace("\'","'")

sentence.replace(r"\'","'")

sentence.replace("\\","")

sentence.replace(r"\\","")

sentence.replace(r"\\\\","")

我知道这\是为了逃避某些事情,所以不知道怎么用引号来做

python nltk

4
推荐指数
1
解决办法
1529
查看次数