访问公共爬网AWS公共数据集

Question

我需要浏览和下载常见爬网的公共数据集的子集.此页面提到托管数据的位置.
如何浏览并可能下载在s3:// aws-publicdatasets/common-crawl/crawl-002 /上托管的常见爬网数据？

Answer 1

就像更新一样,下载Common Crawl语料库一直是免费的,您可以使用HTTP而不是S3.S3允许您使用匿名凭据来访问数据.

如果要通过HTTP下载,请获取其中一个文件位置,例如:

共爬行/爬行数据/ CC-MAIN-2014-23 /分段/ 1404776400583.60/WARC/CC-MAIN-20140707234000-00000-IP-10-180-212-248.ec2.internal.warc.gz

然后将https://commoncrawl.s3.amazonaws.com/添加到其中,从而生成链接:

要获取所有此类文件的列表,请参阅更新的爬网上的warc.paths.gz(或WET或WAT文件的等效文件),或使用s3cmd或类似工具使用匿名凭据列出文件.

此链接将起作用,允许您在不通过S3的情况下下载数据.