美丽的汤引发UnicodeEncodeError"序数不在范围内(128)"

Tzu*_*hay 5 python unicode beautifulsoup

我试图解析从野外网络下载的任意文件,是的,我无法控制他们的内容.

因为如果你给它坏标记美丽的汤不会呛......我不知道为什么它给我的那些乡下人起坐时有时,部分 DOC的格式不正确,以及是否有一种方法,使其恢复到下一个可读文档的一部分,不管这个错误.

发生错误的行是第3行:

from BeautifulSoup  import BeautifulSoup as doc_parser
reader = open(options.input_file, "rb")
doc = doc_parser(reader)
Run Code Online (Sandbox Code Playgroud)

CLI完整输出是:

Traceback (most recent call last):
  File "./grablinks", line 101, in <module>
    sys.exit(main())
  File "./grablinks", line 88, in main
    links = grab_links(options)
  File "./grablinks", line 36, in grab_links
    doc = doc_parser(reader)
  File "/usr/local/lib/python2.7/dist-packages/BeautifulSoup.py", line 1519, in __init__
    BeautifulStoneSoup.__init__(self, *args, **kwargs)
  File "/usr/local/lib/python2.7/dist-packages/BeautifulSoup.py", line 1144, in __init__
    self._feed(isHTML=isHTML)
  File "/usr/local/lib/python2.7/dist-packages/BeautifulSoup.py", line 1186, in _feed
    SGMLParser.feed(self, markup)
  File "/usr/lib/python2.7/sgmllib.py", line 104, in feed
    self.goahead(0)
  File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead
        k = self.parse_endtag(i)
  File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag
    self.finish_endtag(tag)
  File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag
    method = getattr(self, 'end_' + tag)
UnicodeEncodeError: 'ascii' codec can't encode characters in position 15-16: ordinal not in range(128)
Run Code Online (Sandbox Code Playgroud)

bob*_*nce 2

是的,如果你有带有非 ASCII 名称的元素 ( <caf\xc3\xa9>),它会感到窒息。对于 XML 来说,这甚至不是 \xe2\x80\x98bad markup\xe2\x80\x99...

\n\n

这是 BeautifulSoup 使用的一个错误sgmllib:它尝试查找与标签同名的自定义方法,但在 Python 2 中方法名称是字节字符串,因此即使查找带有非 ASCII 字符的方法,该字符也永远不会出现,失败。

\n\n

except AttributeError:您可以通过将第 259 行和第 371 行从 更改为来对 sgmllib 进行修复except AttributeError, UnicodeError:,但这并不是一个很好的修复。重写该方法的其余部分也并非易事。

\n\n

你想解析什么?BeautifulStoneSoup 的实用性总是值得怀疑的,确实\xe2\x80\x94XML 没有 HTML 那样的大量可怕的解析器攻击,所以一般来说,损坏的 XML 不是 XML。因此,您通常应该使用普通的旧式 XML 解析器(例如,使用标准 DOM 或 etree)。对于解析一般 HTML,html5lib这是目前更好的选择。

\n