数据收集Urllib2 + bs4 vs Scrapy

B.M*_*.W. 2 python screen-scraping beautifulsoup scrapy web-scraping

数据收集是我日常工作的一部分,通常我收集数据的方式是使用urllib2收集html页面,然后使用beautifulsoup来解析我想要的数据.

我经常听说过Python Scrapy包.我看了一下Scrapy,他们网站上的内容基本上是关于一般Scraping的重要性,而不是'Scrapy'本身.

我想知道一个对urllib2和beautifulsoup有合理知识的人,Scrapy很酷或简单到足以让我放弃urllib2和bs4去吗?如果是这样,那么转换的最主要原因是什么?

也许来自以下方面:

  1. 快速实施机器人

  2. 机器人的坚固性

  3. 容易维护你的机器人.

ale*_*cxe 5

这是我的见解.

Scrapy旨在使网络抓取代码更简单,更有条理.它也非常快(它基于扭曲).

那些蜘蛛类,项目,项目管道真的可以帮助您组织获取页面,链接,解析响应,收集数据,将其存储在某个地方等过程.它为您提供了一个关于如何创建Web抓取项目的创意模板.

它远远超过urllib2+ bs4,它是一个框架:

Scrapy是一种用于抓取网站和提取结构化数据的应用程序框架,可用于广泛的有用应用程序,如数据挖掘,信息处理或历史存档.

有比我提到的更多的功能,请参阅这个内容丰富的概述文档页面,特别是阅读还有什么?部分.

选择(urllib2+ bs4Scrapy)实际上取决于任务,网络抓取代码的复杂性,是否需要将已爬网数据存储在某处等.

希望有所帮助.