Jér*_*mie 5 python pipeline scrapy web-scraping
经过多年不情愿地将抓取工具编码为正则表达式和 BeautifulSoup 等的大杂烩之后,我发现了Scrapy,我几乎把它当作今年给自己的圣诞礼物!它使用起来很自然,而且似乎是为了让几乎所有东西都变得优雅和可重复使用而构建的。
但我处于一种不知道如何处理的情况:我的蜘蛛爬行并抓取列表页面 A,从中生成一组项目。但对于每个项目,我需要获取一个不同的补充链接(由一些抓取的信息构建,但不是 Scrapy 可以跟踪的页面上的明确链接)以获取附加信息。
我的问题分为两部分:在爬网过程之外获取 URL 的协议是什么?如何以优雅的方式从多个来源构建项目?
在 StackOverflow 上的上一个问题中已经部分地提出(并回答)了这个问题。但我更感兴趣的是 Scrapy 的哲学在这个用例中应该是什么——肯定不是不可预见的可能性?我想知道这是否是管道注定要使用的事情之一(添加从主要信息推导出来的辅助来源的信息是一个“后处理”实例),但是最好的方法是什么?不是彻底搞乱了Scrapy高效的异步组织吗?
在抓取过程之外获取 URL 的协议是什么?
当您创建一个Request
给它一个 url 的文件时,您从哪里获取该 url 进行下载并不重要。您可以从页面中提取它,或者以其他方式构建。
如何以优雅的方式从多个来源构建项目?