小编Raf*_*fal的帖子

如何安排蜘蛛每 5 分钟运行一次？

几天来我一直在试图弄清楚如何安排我的 scrapy 蜘蛛，但没有任何运气。（我尝试了从 Windows 任务计划程序到 scrapy-do lib 的所有内容，但在我的MAIN.PY上没有任何效果）

（我的主要目标是安排我的蜘蛛每 5 分钟从我的蜘蛛NewsSpider收集数据到 mySQL news_db数据库）

请查看我的脚本，因为它有所修改，并根据需要进行更改。我真的希望这个能发挥作用。

主程序.PY

from scrapy import cmdline
cmdline.execute("scrapy crawl news".split())

Run Code Online (Sandbox Code Playgroud)

新闻_蜘蛛.PY

import scrapy
from ..items import WebspiderItem


class NewsSpider(scrapy.Spider):
    name = 'news'
    start_urls = [
        'https://www.coindesk.com/feed'
    ]

    def parse(self, response):
        pub_date = response.xpath('//pubDate/text()').extract()[0]
        page_title = response.xpath('//title/text()').extract()[2]
        page_summary = response.xpath('//description/text()').extract()[1]
        text_link = response.xpath('//link/text()').extract()[2]

        item = WebspiderItem()
        item['date'] = pub_date
        item['title'] = page_title
        item['summary'] = page_summary
        item['link'] = text_link

        yield item

Run Code Online (Sandbox Code Playgroud)

项目.PY

import scrapy


class WebspiderItem(scrapy.Item): …

Run Code Online (Sandbox Code Playgroud)

python scheduled-tasks scrapy scrapy-pipeline

Raf*_*fal

2020 04-07

1
推荐指数

1
解决办法

3109
查看次数

标签统计

python ×1

scheduled-tasks ×1

scrapy ×1

scrapy-pipeline ×1

如何安排蜘蛛每 5 分钟运行一次？

标签 统计

小编Raf_fal的帖子

标签统计