新手Q关于Scrapy pipeline.py

Zey*_*nel 2 python web-crawler scrapy

我正在研究Scrapy教程.为了测试这个过程,我用这些文件创建了一个新项目:

请参阅我在Scrapy组中的帖子获取脚本链接,我不能在这里发布超过1个链接.

蜘蛛运行良好并在标题标签之间擦除文本并将其放入FirmItem

[whitecase.com] INFO: Passed FirmItem(title=[u'White & Case LLP - Lawyers - Rachel B. Wagner ']) 
Run Code Online (Sandbox Code Playgroud)

但我陷入了管道流程.我想将此FirmItem添加到csv文件中,以便我可以将其添加到数据库中.

我是python的新手,我正在学习.如果有人给我一个关于如何使pipelines.py工作的线索,以便将已删除的数据放入items.csv,我将不胜感激.

谢谢.

lee*_*eeo 9

我认为它们可以在Scrapy教程中解决您的具体问题.

它建议,正如其他人在这里使用CSV模块一样.将以下内容放入您的pipelines.py文件中.

import csv

class CsvWriterPipeline(object):

    def __init__(self):
        self.csvwriter = csv.writer(open('items.csv', 'wb'))

    def process_item(self, domain, item):
        self.csvwriter.writerow([item['title'][0], item['link'][0], item['desc'][0]])
        return item
Run Code Online (Sandbox Code Playgroud)

不要忘记通过将管道添加到settings.py中的ITEM_PIPELINES设置来启用管道,如下所示:

ITEM_PIPELINES = ['dmoz.pipelines.CsvWriterPipeline']
Run Code Online (Sandbox Code Playgroud)

根据项目的具体情况进行调整.