小编JLR*_*JLR的帖子

具有Scrapy子类初始化错误的动态蜘蛛生成

我试图编写一个通用的“ Master”蜘蛛，将其与执行期间动态插入的“ start_urls”和“ allowed_domains”一起使用。（最终，我将这些存储在数据库中，然后将其拉出，然后用于初始化和抓取每个数据库条目的新蜘蛛。）

目前，我有两个文件：

MySpider.py-建立我的“主”蜘蛛类。
RunSpider.py-执行我动态生成的蜘蛛的初始化的概念证明。

为了编写这两个文件，我引用了以下内容：

在Scrapy.org上将参数传递给蜘蛛
从Scrapy.org的脚本运行Scrapy
Scrapy.org上Pyton内的一般蜘蛛结构
我在StackOverflow上遇到的两个问题是我能找到的最佳帮助：创建一个通用的scrapy spider；粗糙的start_urls

我考虑了scrapyD，但我认为它不是我想要的...

这是我写的：

MySpider.py-

import scrapy

class BlackSpider(scrapy.Spider):
    name = 'Black1'

    def __init__(self, allowed_domains=[], start_urls=[], *args, **kwargs):
        super(BlackSpider, self).__init__(*args, **kwargs)
        self.start_urls = start_urls
        self.allowed_domains = allowed_domains
        #For Testing: 
        print start_urls
        print self.start_urls
        print allowed_domains
        print self.allowed_domains

    def parse(self, response):
        #############################
        # Insert my parse code here #
        #############################
        return items

Run Code Online (Sandbox Code Playgroud)

RunSpider.py-

import scrapy
from scrapy.crawler import CrawlerProcess
from MySpider import BlackSpider

#Set my …

Run Code Online (Sandbox Code Playgroud)

python bots web-crawler scrapy scrapy-spider

JLR*_*JLR

2017 05-23

5
推荐指数

1
解决办法

1233
查看次数

标签统计

bots ×1

python ×1

scrapy ×1

scrapy-spider ×1

web-crawler ×1

具有Scrapy子类初始化错误的动态蜘蛛生成

标签 统计

小编JLR_JLR的帖子

标签统计