gib*_*tar 6 amazon amazon-s3 amazon-ec2 amazon-web-services common-crawl
我需要浏览和下载常见爬网的公共数据集的子集.此页面提到托管数据的位置.
如何浏览并可能下载在s3:// aws-publicdatasets/common-crawl/crawl-002 /上托管的常见爬网数据?
Sme*_*ity 13
就像更新一样,下载Common Crawl语料库一直是免费的,您可以使用HTTP而不是S3.S3允许您使用匿名凭据来访问数据.
如果要通过HTTP下载,请获取其中一个文件位置,例如:
共爬行/爬行数据/ CC-MAIN-2014-23 /分段/ 1404776400583.60/WARC/CC-MAIN-20140707234000-00000-IP-10-180-212-248.ec2.internal.warc.gz
然后将https://commoncrawl.s3.amazonaws.com/添加到其中,从而生成链接:
要获取所有此类文件的列表,请参阅更新的爬网上的warc.paths.gz(或WET或WAT文件的等效文件),或使用s3cmd或类似工具使用匿名凭据列出文件.
此链接将起作用,允许您在不通过S3的情况下下载数据.
归档时间: |
|
查看次数: |
7145 次 |
最近记录: |