pg2*_*455 8 amazon-s3 amazon-web-services
我一直在努力下载这里提到的arXiv文章大约一周:http://arxiv.org/help/bulk_data_s3#src.
我曾尝试很多东西:s3Browser
,s3cmd
.我能够登录我的存储桶,但我无法从arXiv存储桶下载数据.
我试过了:
s3cmd get s3://arxiv/pdf/arXiv_pdf_1001_001.tar
看到:
$ s3cmd get s3://arxiv/pdf/arXiv_pdf_1001_001.tar
s3://arxiv/pdf/arXiv_pdf_1001_001.tar -> ./arXiv_pdf_1001_001.tar [1 of 1]
s3://arxiv/pdf/arXiv_pdf_1001_001.tar -> ./arXiv_pdf_1001_001.tar [1 of 1]
ERROR: S3 error: Unknown error
Run Code Online (Sandbox Code Playgroud)
s3cmd get
同 x-amz-request-payer:requester
它再次给了我同样的错误:
$ s3cmd get --add-header="x-amz-request-payer:requester" s3://arxiv/pdf/arXiv_pdf_manifest.xml
s3://arxiv/pdf/arXiv_pdf_manifest.xml -> ./arXiv_pdf_manifest.xml [1 of 1]
s3://arxiv/pdf/arXiv_pdf_manifest.xml -> ./arXiv_pdf_manifest.xml [1 of 1]
ERROR: S3 error: Unknown error
Run Code Online (Sandbox Code Playgroud)
我也尝试过复制该文件夹中的文件.
$ aws s3 cp s3://arxiv/pdf/arXiv_pdf_1001_001.tar .
A client error (403) occurred when calling the HeadObject operation: Forbidden
Completed 1 part(s) with ... file(s) remaining
Run Code Online (Sandbox Code Playgroud)
这可能意味着我犯了一个错误.问题是我不知道如何以及添加什么将传达我的下载付费许可.
我无法弄清楚从S3下载数据应该怎么做.我在AWS网站上已经阅读了很多内容,但我无处可以找到解决问题的方法.
如何批量下载arXiv数据?
小智 12
尝试下载s3cmd
版本1.6.0
:http://sourceforge.net/projects/s3tools/files/s3cmd/
$ s3cmd --configure
Run Code Online (Sandbox Code Playgroud)
输入您在Amazon AWS网站界面的帐户管理选项卡中找到的凭据.
$ s3cmd get --recursive --skip-existing s3://arxiv/src/ --requester-pays
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
4344 次 |
最近记录: |