小编Abh*_*k K的帖子

如何将抓取的数据从 Scrapy 上传到 Amazon S3 作为 csv 或 json？

将爬取的数据从 Scrapy 上传到 Amazon s3 的步骤是什么？我能从互联网上找到的只是将抓取的图像上传到 s3 存储桶。

我目前使用的是 Ubuntu 16.04，我已经通过命令安装了 boto，

pip install boto

Run Code Online (Sandbox Code Playgroud)

我在 settings.py 中添加了以下几行。任何人都可以解释我必须进行的其他更改。

AWS_ACCESS_KEY_ID = 'access key id'
AWS_SECRET_ACCESS_KEY= 'access key'


FEED_URI = 'bucket path'
FEED_FORMAT = 'jsonlines'
FEED_EXPORT_FIELDS = None
FEED_STORE_EMPTY = False
FEED_STORAGES = {}
FEED_STORAGES_BASE = { 
'': None,
'file': None,
'stdout': None,
's3': 'scrapy.extensions.feedexport.S3FeedStorage',
'ftp': None,
}
FEED_EXPORTERS = {}
FEED_EXPORTERS_BASE = {
    'json': None,
    'jsonlines': None,
    'jl': None,
    'csv': None,
    'xml': None,
    'marshal': None,
    'pickle': None,
}

Run Code Online (Sandbox Code Playgroud)

编辑1： 当我配置上述所有内容并运行时scrapy …

python json amazon-s3 scrapy web-scraping

Abh*_*k K

2016 08-08

8
推荐指数

3
解决办法

5176
查看次数