我正在使用Beautiful Soup 3解析一些HTML,但它包含HTML实体,Beautiful Soup 3不会自动为我解码:
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup("<p>£682m</p>")
>>> text = soup.find("p").string
>>> print text
£682m
Run Code Online (Sandbox Code Playgroud)
我怎样才能解码HTML实体中text获得"£682m",而不是"£682m".
我有一个html编码的字符串:
'''<img class="size-medium wp-image-113"\
style="margin-left: 15px;" title="su1"\
src="http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg"\
alt="" width="300" height="194" />'''
Run Code Online (Sandbox Code Playgroud)
我想将其改为:
<img class="size-medium wp-image-113" style="margin-left: 15px;"
title="su1" src="http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg"
alt="" width="300" height="194" />
Run Code Online (Sandbox Code Playgroud)
我希望将其注册为HTML,以便浏览器将其呈现为图像,而不是显示为文本.
我已经在C#中找到了如何做到这一点,但在Python中却没有.有人可以帮我吗?
谢谢.
编辑:有人问为什么我的字符串存储就像那样.这是因为我正在使用网络抓取工具"扫描"网页并从中获取某些内容.该工具(BeautifulSoup)以该格式返回字符串.
我有一个像这样的HTML文本:
<xml ... >
Run Code Online (Sandbox Code Playgroud)
我想把它转换成可读的东西:
<xml ...>
Run Code Online (Sandbox Code Playgroud)
用Python做任何简单(快速)的方法吗?
在使用Beautifulsoup处理html时,<和>被转换为<和>,因为标签锚都被转换,整个汤失去了它的结构,任何建议?
我正在使用 Python xml.etree.ElementTree 来输出 XML。我想用实体引用输出它,解析 XML 时将替换该实体引用。
通常“&”会被转义,&因为“&”用于声明实体引用。不过,我确实想写一个实体参考。例如,我想编写一个包含实体引用的 XML 文件&manifestName;:
>>> from xml.etree.ElementTree import Element, tostring
>>> manifest = Element('manifest')
>>> manifest.text = '&manifestName;'
>>> tostring(manifest)
Run Code Online (Sandbox Code Playgroud)
它返回一个转义的&符号:
'<manifest>&manifestName;</manifest>'
Run Code Online (Sandbox Code Playgroud)
所需的 XML 为:
'<manifest>&manifestName;</manifest>'
Run Code Online (Sandbox Code Playgroud)
我尝试过各种转义技巧,例如,,,&但它们不起作用。它们包含的 & 符号始终呈现为。\&&&&
我有一个像一个句子的字符串 I don't want it, there'll be others
所以文字看起来像这样 I don\'t want it, there\'ll be other
由于某种原因,\附带的文字旁边'.它是从另一个来源读入的.我想删除它,但不能.我试过了.
sentence.replace("\'","'")
sentence.replace(r"\'","'")
sentence.replace("\\","")
sentence.replace(r"\\","")
sentence.replace(r"\\\\","")
我知道这\是为了逃避某些事情,所以不知道怎么用引号来做
python ×6
html ×2
django ×1
elementtree ×1
html-encode ×1
nltk ×1
parsing ×1
python-2.6 ×1
xml ×1