小编JLR*_*JLR的帖子

具有Scrapy子类初始化错误的动态蜘蛛生成

我试图编写一个通用的“ Master”蜘蛛,将其与执行期间动态插入的“ start_urls”和“ allowed_domains”一起使用。(最终,我将这些存储在数据库中,然后将其拉出,然后用于初始化和抓取每个数据库条目的新蜘蛛。)

目前,我有两个文件:

  1. MySpider.py-建立我的“主”蜘蛛类。
  2. RunSpider.py-执行我动态生成的蜘蛛的初始化的概念证明。

为了编写这两个文件,我引用了以下内容:

我考虑了scrapyD,但我认为它不是我想要的...

这是我写的:

MySpider.py-

import scrapy

class BlackSpider(scrapy.Spider):
    name = 'Black1'

    def __init__(self, allowed_domains=[], start_urls=[], *args, **kwargs):
        super(BlackSpider, self).__init__(*args, **kwargs)
        self.start_urls = start_urls
        self.allowed_domains = allowed_domains
        #For Testing: 
        print start_urls
        print self.start_urls
        print allowed_domains
        print self.allowed_domains

    def parse(self, response):
        #############################
        # Insert my parse code here #
        #############################
        return items
Run Code Online (Sandbox Code Playgroud)

RunSpider.py-

import scrapy
from scrapy.crawler import CrawlerProcess
from MySpider import BlackSpider

#Set my …
Run Code Online (Sandbox Code Playgroud)

python bots web-crawler scrapy scrapy-spider

5
推荐指数
1
解决办法
1233
查看次数

标签 统计

bots ×1

python ×1

scrapy ×1

scrapy-spider ×1

web-crawler ×1