Scrapy - 如何每天刮取新页面

Cra*_*igH 3 html-parsing scrapy web-scraping

我正在评估scrapy是否适合我.我想要的是每天为几个体育新闻网站搜索最新的头条新闻,并提取标题,日期和文章正文.我不关心文章正文中的链接,我只想要身体.

据我所知,爬行是一次性工作,它根据发现的链接抓取整个站点.我不想锤击网站,我也不想抓取整个网站; 只是体育部分,只有头条新闻.

总而言之,我想要scrapy

  1. 每天一次从指定的域中查找与昨天不同的新闻文章
  2. 提取新文章的日期,时间和正文
  3. 将结果保存到数据库

是否可以这样做,如果是这样,我将如何实现这一目标.我已经阅读了教程,但似乎他们描述的过程会将整个网站作为一次性工作进行搜索.

Sha*_*ans 9

看看在deltafetch中间件,这是一部分插件的scrapy图书馆发表scrapinghub.它存储在磁盘上生成Items的页面的URL,并且不会再次访问它们.它仍然允许scrapy访问其他页面(通常需要查找项目页面).这是一个非常简单的示例,可以根据您的特定需求进行定制.

您需要在启用此中间件的情况下每天运行爬网(例如,使用cron).