Scrapy：如何构建一个从多个 URL 收集信息的项目？

Question

Scrapy：如何构建一个从多个 URL 收集信息的项目？

Jér*_*mie 5 python pipeline scrapy web-scraping

经过多年不情愿地将抓取工具编码为正则表达式和 BeautifulSoup 等的大杂烩之后，我发现了Scrapy，我几乎把它当作今年给自己的圣诞礼物！它使用起来很自然，而且似乎是为了让几乎所有东西都变得优雅和可重复使用而构建的。

但我处于一种不知道如何处理的情况：我的蜘蛛爬行并抓取列表页面 A，从中生成一组项目。但对于每个项目，我需要获取一个不同的补充链接（由一些抓取的信息构建，但不是 Scrapy 可以跟踪的页面上的明确链接）以获取附加信息。

我的问题分为两部分：在爬网过程之外获取 URL 的协议是什么？如何以优雅的方式从多个来源构建项目？

在 StackOverflow 上的上一个问题中已经部分地提出（并回答）了这个问题。但我更感兴趣的是 Scrapy 的哲学在这个用例中应该是什么——肯定不是不可预见的可能性？我想知道这是否是管道注定要使用的事情之一（添加从主要信息推导出来的辅助来源的信息是一个“后处理”实例），但是最好的方法是什么？不是彻底搞乱了Scrapy高效的异步组织吗？

Answer 1

war*_*iuc 2

在抓取过程之外获取 URL 的协议是什么？

当您创建一个Request给它一个 url 的文件时，您从哪里获取该 url 进行下载并不重要。您可以从页面中提取它，或者以其他方式构建。

如何以优雅的方式从多个来源构建项目？

使用Request.meta

归档时间：	13 年，1 月前
查看次数：	1802 次
最近记录：	13 年，1 月前