当你可以直接插入Scrapy时,为什么还要烦恼？

Question

我将使用scrapy来抓取域名.我打算用sqlalchemy将所有信息存储到我的数据库中.这是每页非常简单的xpath选择器,我打算使用HttpCacheMiddleware.

从理论上讲,只要我有来自蜘蛛的数据,我就可以将数据插入到我的数据库中(这需要至少实例化hxs).这将允许我绕过实例化任何Item子类,因此不会有任何项目通过我的管道.

我认为这样做的好处是:

磁盘I/O比网络I/O快很多,所以我认为这不会对蜘蛛产生太大影响.

我有理由想要使用Scrapy的Item类吗？

Answer 1

如果直接插入蜘蛛内,则蜘蛛将阻塞,直到插入数据.如果您创建一个Item并将其传递给Pipeline,则蜘蛛可以在插入数据时继续爬行.此外,如果多个蜘蛛试图同时插入数据,则可能存在竞争条件.