Vin*_*ent 3 html python regex csv file
我有一个文本文件; 用作分隔符.问题是它有一些html文本格式,如>显然; 在这导致问题.文本文件很大,我没有这些html字符串的列表,也就是有许多不同的例子,如$amp;.如何使用python删除所有这些内容.该文件是名称,地址,电话号码和一些其他字段的列表.我正在寻找crap.html.remove(textfile)模块
>
$amp;
bob*_*nce 6
最快的方法可能是unescape在HTMLParser中使用未记录但迄今为止最稳定的方法:
unescape
import HTMLParser s= HTMLParser.HTMLParser().unescape(s)
请注意,这必须输出Unicode字符串,因此如果您有任何非ASCII字节,则需要s.decode(encoding)先输入.
s.decode(encoding)
归档时间:
15 年,10 月 前
查看次数:
4516 次
最近记录:
8 年,8 月 前