相关疑难解决方法(0)

在Python中将XML/HTML实体转换为Unicode字符串

我正在做一些网页抓取,网站经常使用HTML实体来表示非ascii字符.Python是否有一个实用程序,它接受带有HTML实体的字符串并返回unicode类型?

例如:

我回来了:

ǎ
Run Code Online (Sandbox Code Playgroud)

代表带有音标的"ǎ".在二进制中,这表示为16位01ce.我想将html实体转换为值 u'\u01ce'

html python entities

69
推荐指数
7
解决办法
6万
查看次数

HTML实体代码到文本

有没有人知道在Python中使用HTML实体代码(例如&lt; &amp;)将字符串转换为普通字符串(例如<&)的简单方法?

cgi.escape()将逃脱字符串(很差),但没有unescape().

html python beautifulsoup

13
推荐指数
2
解决办法
1万
查看次数

Python输入清理

我需要做一些非常快速的脏输入消毒,我想基本上将所有转换<, >&lt;, &gt;.

我希望得到相同的结果,'<script></script>'.replace('<', '&lt;').replace('>', '&gt;')而不必多次迭代字符串.我知道maketransstr.translate(即http://www.tutorialspoint.com/python/string_translate.htm)相关但这仅从1个char转换为另一个char.换句话说,人们做不到这样的事情:

inList = '<>'
outList = ['&lt;', '&gt;']
transform = maketrans(inList, outList)
Run Code Online (Sandbox Code Playgroud)

是否有builtin可以在单次迭代中执行此转换的函数?

我想使用builtin功能而不是外部模块.我已经知道了Bleach.

python forms validation sanitization input

8
推荐指数
2
解决办法
1万
查看次数