删除html格式">" 使用Python csv.reader从文本文件中

Vin*_*ent 3 html python regex csv file

我有一个文本文件; 用作分隔符.问题是它有一些html文本格式,如>显然; 在这导致问题.文本文件很大,我没有这些html字符串的列表,也就是有许多不同的例子,如$amp;.如何使用python删除所有这些内容.该文件是名称,地址,电话号码和一些其他字段的列表.我正在寻找crap.html.remove(textfile)模块

bob*_*nce 6

最快的方法可能是unescapeHTMLParser中使用未记录但迄今为止最稳定的方法:

import HTMLParser
s= HTMLParser.HTMLParser().unescape(s)
Run Code Online (Sandbox Code Playgroud)

请注意,这必须输出Unicode字符串,因此如果您有任何非ASCII字节,则需要s.decode(encoding)先输入.