我应该使用什么纯Python库来抓取网站?

MSt*_*odd 2 python google-app-engine xpath mechanize beautifulsoup

我目前有一些Ruby代码用来刮一些网站.我当时正在使用Ruby,因为当时我正在使用Ruby on Rails创建一个站点,这只是有意义的.

现在我正试图将其移植到Google App Engine,并继续陷入困境.

我已将Python Mechanize移植到与Google App Engine一起使用,但它不支持使用XPATH进行DOM检查.

我已经尝试了内置的ElementTree,但是当它遇到'&mdash'时,我在第一个HTML blob上窒息了.

我是否一直试图在那里破解ElementTree,或者我是否尝试使用其他东西?

谢谢,马克

S.L*_*ott 11

美丽的汤.

  • 第二个.美丽的汤是不可思议的. (2认同)

小智 6

lxml - 比elementtree好100倍

  • jcd - 不是真的.lxml包含几个解析HTML的选项,包括使用BeautifulSoup作为解析器后端 - http://codespeak.net/lxml/elementsoup.html (5认同)
  • lxml是C库的包装器,因此无法在appengine上运行. (3认同)