从Flask路线开始scrapy

Question

从Flask路线开始scrapy

我想构建一个抓取网页的URL的抓取工具,并将结果返回给网页.现在我从终端开始scrapy并将响应存储在一个文件中.如何将某些输入发布到Flask上,处理并返回响应,我该如何启动爬虫？

Answer 1

您需要在 Flask 应用程序中创建一个 CrawlerProcess 并以编程方式运行爬网。请参阅文档。

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
    # Your spider definition
    ...

process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

process.crawl(MySpider)
process.start() # The script will block here until the crawl is finished

Run Code Online (Sandbox Code Playgroud)

在继续您的项目之前，我建议您研究一下 Python 任务队列（如rq）。这将允许您在后台运行 Scrapy 抓取，并且 Flask 应用程序在抓取运行时不会冻结。

归档时间：	10 年，5 月前
查看次数：	1039 次
最近记录：	9 年，9 月前