如何从亚马逊的请求者付费桶下载数据?

pg2*_*455 8 amazon-s3 amazon-web-services

我一直在努力下载这里提到的arXiv文章大约一周:http://arxiv.org/help/bulk_data_s3#src.

我曾尝试很多东西:s3Browser,s3cmd.我能够登录我的存储桶,但我无法从arXiv存储桶下载数据.

我试过了:

  1. s3cmd get s3://arxiv/pdf/arXiv_pdf_1001_001.tar

看到:

$ s3cmd get s3://arxiv/pdf/arXiv_pdf_1001_001.tar


s3://arxiv/pdf/arXiv_pdf_1001_001.tar -> ./arXiv_pdf_1001_001.tar  [1 of 1]
s3://arxiv/pdf/arXiv_pdf_1001_001.tar -> ./arXiv_pdf_1001_001.tar  [1 of 1]
ERROR: S3 error: Unknown error
Run Code Online (Sandbox Code Playgroud)
  1. s3cmd getx-amz-request-payer:requester

它再次给了我同样的错误:

$ s3cmd get --add-header="x-amz-request-payer:requester" s3://arxiv/pdf/arXiv_pdf_manifest.xml
s3://arxiv/pdf/arXiv_pdf_manifest.xml -> ./arXiv_pdf_manifest.xml  [1 of 1]
s3://arxiv/pdf/arXiv_pdf_manifest.xml -> ./arXiv_pdf_manifest.xml  [1 of 1]
ERROR: S3 error: Unknown error
Run Code Online (Sandbox Code Playgroud)
  1. 仿形

我也尝试过复制该文件夹中的文件.

$ aws s3 cp s3://arxiv/pdf/arXiv_pdf_1001_001.tar .

A client error (403) occurred when calling the HeadObject operation: Forbidden
Completed 1 part(s) with ... file(s) remaining
Run Code Online (Sandbox Code Playgroud)

这可能意味着我犯了一个错误.问题是我不知道如何以及添加什么将传达我的下载付费许可.

我无法弄清楚从S3下载数据应该怎么做.我在AWS网站上已经阅读了很多内容,但我无处可以找到解决问题的方法.

如何批量下载arXiv数据?

小智 12

尝试下载s3cmd版本1.6.0:http://sourceforge.net/projects/s3tools/files/s3cmd/

$ s3cmd --configure
Run Code Online (Sandbox Code Playgroud)

输入您在Amazon AWS网站界面的帐户管理选项卡中找到的凭据.

$ s3cmd get --recursive --skip-existing s3://arxiv/src/ --requester-pays
Run Code Online (Sandbox Code Playgroud)