hoj*_*oju 5 python google-app-engine lxml html-parsing
通常我使用lxml来满足我的HTML解析需求,但这在Google App Engine上不可用.显而易见的替代方案是BeautifulSoup,但我觉得它在格式错误的HTML上很容易窒息.目前我正在测试libxml2dom并且已经获得了更好的结果.
你发现哪个纯Python HTML解析器表现最好?我的首要任务是能够在速度上处理糟糕的HTML.
版本3.1.0的Beautiful Soup在真实HTML上的表现比3.0.8版本差得多
因此,它可能会帮助您使用此早期版本.这正是作者自己推荐的.
你可以假装Beautiful Soup 3.1.0版本从未发布过.版本3.0.8在Python 2.3到2.6上仍然可以正常工作.