使用Gecko/Firefox或Webkit在python中进行HTML解析

Question

我使用BeautifulSoup和urllib2下载HTML页面并解析它们.问题在于错误形成的HTML页面.虽然BeautifulSoup善于处理错误形成的HTML仍然不如Firefox.

考虑到Firefox或Webkit在处理HTML方面更具更新性和弹性,我认为使用它们构建和规范化页面的DOM树然后通过Python操作它是理想的.

但是,我找不到任何python绑定相同.谁能提出建议？

我遇到了一些运行无头Firefox进程并通过python进行操作的解决方案,但是有更多的pythonic解决方案可用.

Answer 1

也许pywebkitgtk可以满足您的需要。