Zey*_*nel 2 python web-crawler scrapy
我正在研究Scrapy教程.为了测试这个过程,我用这些文件创建了一个新项目:
请参阅我在Scrapy组中的帖子获取脚本链接,我不能在这里发布超过1个链接.
蜘蛛运行良好并在标题标签之间擦除文本并将其放入FirmItem
[whitecase.com] INFO: Passed FirmItem(title=[u'White & Case LLP - Lawyers - Rachel B. Wagner '])
Run Code Online (Sandbox Code Playgroud)
但我陷入了管道流程.我想将此FirmItem添加到csv文件中,以便我可以将其添加到数据库中.
我是python的新手,我正在学习.如果有人给我一个关于如何使pipelines.py工作的线索,以便将已删除的数据放入items.csv,我将不胜感激.
谢谢.
我认为它们可以在Scrapy教程中解决您的具体问题.
它建议,正如其他人在这里使用CSV模块一样.将以下内容放入您的pipelines.py文件中.
import csv
class CsvWriterPipeline(object):
def __init__(self):
self.csvwriter = csv.writer(open('items.csv', 'wb'))
def process_item(self, domain, item):
self.csvwriter.writerow([item['title'][0], item['link'][0], item['desc'][0]])
return item
Run Code Online (Sandbox Code Playgroud)
不要忘记通过将管道添加到settings.py中的ITEM_PIPELINES设置来启用管道,如下所示:
ITEM_PIPELINES = ['dmoz.pipelines.CsvWriterPipeline']
Run Code Online (Sandbox Code Playgroud)
根据项目的具体情况进行调整.