什么是Perl或Python的站点抓取库的起点？

Question

可能重复:
如何使用Perl屏幕刮擦？
使用Python进行Web抓取

这不是我的工作领域,所以原谅普遍缺乏知识.我正在寻找一个用于网站抓取的Python或Perl库(从各个页面上的网站/表格获取一些产品信息/更加用户友好的格式 - Excel - 两种语言都有令人满意的选项)并提供良好的文档.

任何人都可以提出有关该主题的建议或起点吗？谷歌搜索提供了几个有趣的比赛,但是我只是在短时间内不打算在错误的赛道上打猎,而是宁愿相信有这方面经验的人.

Answer 1

在python中有一个名为scrapy的库以及更基本的库,例如使用机械化或其他接口与解析器,如lxml或beautifulsoup

在评论中提到他们没有教程,但使用mechanize相对简单(使用其浏览器对象),而lxml提供了一种使用xpath跳转dom的简单方法.

虽然我从未使用它,但Selenium似乎也是一个不错的选择,虽然要复杂得多