从脚本设置Scrapy start_urls

Question

从脚本设置Scrapy start_urls

use*_*585 2 python wxpython scrapy web-scraping python-2.7

我有一个工作的scrapy蜘蛛,我可以通过一个单独的脚本运行它,按照这里的例子.我还为我的脚本创建了一个wxPython GUI,它只包含一个多行TextCtrl,供用户输入要抓取的URL列表和要提交的按钮.目前start_urls被硬编码到我的蜘蛛中 - 如何将我在TextCtrl中输入的URL传递给我的蜘蛛中的start_urls数组？在此先感谢您的帮助!

Answer 1

Mep*_*ph- 6

alecxe答案对我不起作用.我的解决方案适用于Scrapy == 1.0.3:

from scrapy.crawler import CrawlerProcess
from tutorial.spiders.some_spider import SomeSpider

process = CrawlerProcess()

process.crawl(SomeSpider, start_urls=["http://www.example.com"])
process.start()

Run Code Online (Sandbox Code Playgroud)

它可能在将来帮助某人.

归档时间：	11 年，7 月前
查看次数：	1417 次
最近记录：	9 年，1 月前