没有更多BeautifulSoup

Pet*_*sen 3 python parsing

我一直在使用BeautifulSoup,但据我所知,库不再被维护.那我该怎么用?我听说过Xpath,但还有什么?

Nic*_*tin 13

4月份发布了一个bug修复版,所以我甚至不确定你认为它不再被维护的地方.然而,即使这是真的,BeautifulSoup仍然有很多功能,我甚至不会看到即使当前的实现很快就会崩溃.你可能会在接下来的两年内开始遇到HTML 5的问题(尽管有很少的怪癖,所以它更容易解析,至少到目前为止),但没有特别的理由不使用BeautifulSoup.社区仍在谷歌小组的支持等活动,显然源代码可供您根据需要进行增强.


fma*_*ark 6

我会避开lxml它,它对我的​​品味太挑剔了.html5lib如果我是你,我会试试.它不仅可以解析html,而且可以很好地处理你在标签汤中看到的那种错误,这些错误称为无效的html.

它甚至还有一个BeautifulSoup仿真模式,在Beautiful Soup表单中生成一个解析树,以便于移植旧代码:

import html5lib
from html5lib import treebuilders

f = open("mydocument.html")
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
minidom_document = parser.parse(f)
Run Code Online (Sandbox Code Playgroud)