访问公共爬网AWS公共数据集

gib*_*tar 6 amazon amazon-s3 amazon-ec2 amazon-web-services common-crawl

我需要浏览和下载常见爬网的公共数据集的子集.页面提到托管数据的位置.
如何浏览并可能下载在s3:// aws-publicdatasets/common-crawl/crawl-002 /上托管的常见爬网数据?

Sme*_*ity 13

就像更新一样,下载Common Crawl语料库一直是免费的,您可以使用HTTP而不是S3.S3允许您使用匿名凭据来访问数据.

如果要通过HTTP下载,请获取其中一个文件位置,例如:

共爬行/爬行数据/ CC-MAIN-2014-23 /分段/ 1404776400583.60/WARC/CC-MAIN-20140707234000-00000-IP-10-180-212-248.ec2.internal.warc.gz

然后将https://commoncrawl.s3.amazonaws.com/添加到其中,从而生成链接:

https://commoncrawl.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212- 248.ec2.internal.warc.gz

要获取所有此类文件的列表,请参阅更新的爬网上的warc.paths.gz(或WET或WAT文件的等效文件),或使用s3cmd或类似工具使用匿名凭据列出文件.

此链接将起作用,允许您在不通过S3的情况下下载数据.