我应该使用什么纯Python库来抓取网站？

Question

我目前有一些Ruby代码用来刮一些网站.我当时正在使用Ruby,因为当时我正在使用Ruby on Rails创建一个站点,这只是有意义的.

现在我正试图将其移植到Google App Engine,并继续陷入困境.

我已将Python Mechanize移植到与Google App Engine一起使用,但它不支持使用XPATH进行DOM检查.

我已经尝试了内置的ElementTree,但是当它遇到'&mdash'时,我在第一个HTML blob上窒息了.

我是否一直试图在那里破解ElementTree,或者我是否尝试使用其他东西？

谢谢,马克

Answer 1

美丽的汤.

Answer 2

lxml - 比elementtree好100倍

jcd - 不是真的.lxml包含几个解析HTML的选项,包括使用BeautifulSoup作为解析器后端 - http://codespeak.net/lxml/elementsoup.html (5认同)
lxml是C库的包装器,因此无法在appengine上运行. (3认同)