我想在使用scrapy爬行时跳过一些文件类型链接.exe .zip .pdf,但是不想将规则与特定网址一起使用规则.怎么样?
更新:
由于在未下载正文时,很难决定是否仅通过Content-Type来关注此链接.我在下载中间件中更改为drop url.谢谢彼得和利奥.
mime scrapy
mime ×1
scrapy ×1