use*_*147 6 html python parsing
我使用BeautifulSoup和urllib2下载HTML页面并解析它们.问题在于错误形成的HTML页面.虽然BeautifulSoup善于处理错误形成的HTML仍然不如Firefox.
考虑到Firefox或Webkit在处理HTML方面更具更新性和弹性,我认为使用它们构建和规范化页面的DOM树然后通过Python操作它是理想的.
但是,我找不到任何python绑定相同.谁能提出建议?
我遇到了一些运行无头Firefox进程并通过python进行操作的解决方案,但是有更多的pythonic解决方案可用.
| 归档时间: |
|
| 查看次数: |
4272 次 |
| 最近记录: |