我将使用scrapy来抓取域名.我打算用sqlalchemy将所有信息存储到我的数据库中.这是每页非常简单的xpath选择器,我打算使用HttpCacheMiddleware.
从理论上讲,只要我有来自蜘蛛的数据,我就可以将数据插入到我的数据库中(这需要至少实例化hxs).这将允许我绕过实例化任何Item子类,因此不会有任何项目通过我的管道.
我认为这样做的好处是:
磁盘I/O比网络I/O快很多,所以我认为这不会对蜘蛛产生太大影响.
我有理由想要使用Scrapy的Item类吗?
如果直接插入蜘蛛内,则蜘蛛将阻塞,直到插入数据.如果您创建一个Item并将其传递给Pipeline,则蜘蛛可以在插入数据时继续爬行.此外,如果多个蜘蛛试图同时插入数据,则可能存在竞争条件.
| 归档时间: |
|
| 查看次数: |
1297 次 |
| 最近记录: |