通过 http 将 AWS Common Crawl 的小样本下载到本地计算机

Question

我有兴趣下载 AWS Common Crawl 的一个小子集（10 个兆顶部）的原始文本，作为信息检索测试的语料库。

Common Crawl 页面建议我需要一个 S3 帐户和/或 Java 程序来访问它，然后我正在考虑筛选 100 GB 的数据，而我所需要的只是几十兆。

这里有一些代码，但它需要 S3 帐户和访问权限（尽管我确实喜欢 Python）。

有没有一种方法可以形成一个 http(s) URL，让我可以根据自己的目的获得一个微小的爬行横截面？我相信我查看了一个页面，该页面建议了一种用日、小时、分钟来构建目录的方法，但我似乎无法再次找到该页面。

谢谢！

Answer 1

这非常简单：只需从每月的爬网中随机选择一个 WARC（WAT 或 WET）文件即可。抓取信息在此公布： https: //commoncrawl.org/connect/blog/

进行最新的抓取（例如2019 年 4 月）
导航到 WARC 文件列表并下载它（WAT 或 WET 相同）
解压文件并随机选择一行（文件路径）
在路径中添加前缀https://commoncrawl.s3.amazonaws.com/（或自 2022 年春季起： https: //data.commoncrawl.org/ - 博客文章中有说明）并下载

你很沮丧，因为每个 WARC/WAT/WET 文件都是它自己的随机样本。需要更多数据：只需随机选择更多文件即可。