相关疑难解决方法(0)

如何使用html5lib解析HTML,并使用XPath查询解析的HTML？

我正在尝试使用html5lib将html页面解析为我可以使用xpath查询的内容.html5lib文档接近零,我花了太多时间试图解决这个问题.最终目标是拉出表的第二行:

<html>
    <table>
        <tr><td>Header</td></tr>
        <tr><td>Want This</td></tr>
    </table>
</html>

Run Code Online (Sandbox Code Playgroud)

所以试试吧:

>>> doc = html5lib.parse('<html><table><tr><td>Header</td></tr><tr><td>Want This</td> </tr></table></html>', treebuilder='lxml')
>>> doc
<lxml.etree._ElementTree object at 0x1a1c290>

Run Code Online (Sandbox Code Playgroud)

看起来不错,让我们看看我们还有什么:

>>> root = doc.getroot()
>>> print(lxml.etree.tostring(root))
<html:html xmlns:html="http://www.w3.org/1999/xhtml"><html:head/><html:body><html:table><html:tbody><html:tr><html:td>Header</html:td></html:tr><html:tr><html:td>Want This</html:td></html:tr></html:tbody></html:table></html:body></html:html>

Run Code Online (Sandbox Code Playgroud)

大笑？

认真.我打算使用一些xpath来获取我想要的数据,但这似乎不起作用.那我该怎么办？我愿意尝试不同的库和方法.

python xpath parsing lxml html5lib

Dan*_*low

2010 12-06

17
推荐指数

2
解决办法

1万
查看次数