我总结一下:minidom似乎不喜欢8859个命名实体; 什么是合适的解决方案?
这是代码,说明了我的情况:
sample = """
<html>
<body>
<h1>Un ejemplo</h1>
<p>Me llamo Juan Fulano y Hernández.</p>
</body>
</html>
"""
sample2 = sample.replace("á", "á")
import xml.dom.minidom
dom2 = xml.dom.minidom.parseString(sample2)
dom = xml.dom.minidom.parseString(sample)
Run Code Online (Sandbox Code Playgroud)
简而言之:当HTML包含'á'和类似的,表示为命名实体时,minidom会抱怨
... xml.parsers.expat.ExpatError: undefined entity ...
Run Code Online (Sandbox Code Playgroud)
我该怎么回应?我
没有可行的是说服(X)的作者HTML避开命名实体.