将 Scrapy Python 输出写入 JSON 文件

Question

将 Scrapy Python 输出写入 JSON 文件

ama*_*mal 4 python json append scrapy web-scraping

我是 Python 和网络抓取的新手。在此程序中，我想将最终输出（所有 3 个链接的产品名称和价格）写入 JSON 文件。请帮忙！

    import scrapy
    from time import sleep
    import csv, os, json
    import random


    class spider1(scrapy.Spider):
        name = "spider1"

        def start_requests(self):
            list = [
                "https://www. example.com/item1",
                "https://www. example.com/item2",
                "https://www. example.com/item3"]

            for i in list:
                yield scrapy.Request(i, callback=self.parse)
                sleep(random.randint(0, 5))

        def parse(self, response):
            product_name = response.css('#pd-h1-cartridge::text')[0].extract()
            product_price = response.css(
                '.product-price .is-current, .product-price_total .is-current, .product-price_total ins, .product-price ins').css(
                '::text')[3].extract()

            name = str(product_name).strip()
            price = str(product_price).replace('\n', "")

data = {name, price}

yield data

extracted_data = []
    while i < len(data):

        extracted_data.append()
        sleep(5)
    f = open('data.json', 'w')
    json.dump(extracted_data, f, indent=4)

Run Code Online (Sandbox Code Playgroud)

Answer 1

小智 8

实际上有一个 scrapy 命令可以做到这一点（阅读）：

scrapy crawl <spidername> -o <outputname>.<format>
scrapy crawl quotes -o quotes.json

Run Code Online (Sandbox Code Playgroud)

但既然你要求 python 代码，我想出了这个：

    def parse(self, response):
        with open("data_file.json", "w") as filee:
            filee.write('[')
            for index, quote in enumerate(response.css('div.quote')):
                json.dump({
                    'text': quote.css('span.text::text').extract_first(),
                    'author': quote.css('.author::text').get(),
                    'tags': quote.css('.tag::text').getall()
                }, filee) 
                if index < len(response.css('div.quote')) - 1:
                    filee.write(',')
            filee.write(']')

Run Code Online (Sandbox Code Playgroud)

它与 json 文件的 scrapy 输出命令执行相同的操作。

Answer 2

小智 7

不需要创建文件scrapy就可以做到，首先创建一个ItemLoader和上次解析返回item时的Item，如果需要json格式的数据，可以在爬取时添加参数-o蜘蛛

例如：

scrapy crawl <spidername> -o <filename>.json

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，8 月前
查看次数：	12225 次
最近记录：	6 年，8 月前