我一直在使用BeautifulSoup,但据我所知,库不再被维护.那我该怎么用?我听说过Xpath,但还有什么?
我会避开lxml它,它对我的品味太挑剔了.html5lib如果我是你,我会试试.它不仅可以解析html,而且可以很好地处理你在标签汤中看到的那种错误,这些错误称为无效的html.
它甚至还有一个BeautifulSoup仿真模式,在Beautiful Soup表单中生成一个解析树,以便于移植旧代码:
import html5lib
from html5lib import treebuilders
f = open("mydocument.html")
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
minidom_document = parser.parse(f)
Run Code Online (Sandbox Code Playgroud)