将爬取的数据从 Scrapy 上传到 Amazon s3 的步骤是什么?我能从互联网上找到的只是将抓取的图像上传到 s3 存储桶。
我目前使用的是 Ubuntu 16.04,我已经通过命令安装了 boto,
pip install boto
Run Code Online (Sandbox Code Playgroud)
我在 settings.py 中添加了以下几行。任何人都可以解释我必须进行的其他更改。
AWS_ACCESS_KEY_ID = 'access key id'
AWS_SECRET_ACCESS_KEY= 'access key'
FEED_URI = 'bucket path'
FEED_FORMAT = 'jsonlines'
FEED_EXPORT_FIELDS = None
FEED_STORE_EMPTY = False
FEED_STORAGES = {}
FEED_STORAGES_BASE = {
'': None,
'file': None,
'stdout': None,
's3': 'scrapy.extensions.feedexport.S3FeedStorage',
'ftp': None,
}
FEED_EXPORTERS = {}
FEED_EXPORTERS_BASE = {
'json': None,
'jsonlines': None,
'jl': None,
'csv': None,
'xml': None,
'marshal': None,
'pickle': None,
}
Run Code Online (Sandbox Code Playgroud)
编辑1: 当我配置上述所有内容并运行时scrapy …