GAE的HTML解析器

hoj*_*oju 5 python google-app-engine lxml html-parsing

通常我使用lxml来满足我的HTML解析需求,但这在Google App Engine上不可用.显而易见的替代方案是BeautifulSoup,但我觉得它在格式错误的HTML上很容易窒息.目前我正在测试libxml2dom并且已经获得了更好的结果.

你发现哪个纯Python HTML解析器表现最好?我的首要任务是能够在速度上处理糟糕的HTML.

Lak*_*sad 5

来自BeautifulSoup文档:

版本3.1.0的Beautiful Soup在真实HTML上的表现比3.0.8版本差得多

因此,它可能会帮助您使用此早期版本.这正是作者自己推荐的.

你可以假装Beautiful Soup 3.1.0版本从未发布过.版本3.0.8在Python 2.3到2.6上仍然可以正常工作.