B.M*_*.W. 2 python screen-scraping beautifulsoup scrapy web-scraping
数据收集是我日常工作的一部分,通常我收集数据的方式是使用urllib2收集html页面,然后使用beautifulsoup来解析我想要的数据.
我经常听说过Python Scrapy包.我看了一下Scrapy,他们网站上的内容基本上是关于一般Scraping的重要性,而不是'Scrapy'本身.
我想知道一个对urllib2和beautifulsoup有合理知识的人,Scrapy很酷或简单到足以让我放弃urllib2和bs4去吗?如果是这样,那么转换的最主要原因是什么?
也许来自以下方面:
快速实施机器人
机器人的坚固性
容易维护你的机器人.
这是我的见解.
Scrapy旨在使网络抓取代码更简单,更有条理.它也非常快(它基于扭曲).
那些蜘蛛类,项目,项目管道真的可以帮助您组织获取页面,链接,解析响应,收集数据,将其存储在某个地方等过程.它为您提供了一个关于如何创建Web抓取项目的创意模板.
它远远超过urllib2+ bs4,它是一个框架:
Scrapy是一种用于抓取网站和提取结构化数据的应用程序框架,可用于广泛的有用应用程序,如数据挖掘,信息处理或历史存档.
有比我提到的更多的功能,请参阅这个内容丰富的概述文档页面,特别是阅读还有什么?部分.
选择(urllib2+ bs4或Scrapy)实际上取决于任务,网络抓取代码的复杂性,是否需要将已爬网数据存储在某处等.
希望有所帮助.
| 归档时间: |
|
| 查看次数: |
1231 次 |
| 最近记录: |