Rus*_*uss 4 information-retrieval corpus dataset common-crawl
我有兴趣下载 AWS Common Crawl 的一个小子集(10 个兆顶部)的原始文本,作为信息检索测试的语料库。
Common Crawl 页面建议我需要一个 S3 帐户和/或 Java 程序来访问它,然后我正在考虑筛选 100 GB 的数据,而我所需要的只是几十兆。
这里有一些代码,但它需要 S3 帐户和访问权限(尽管我确实喜欢 Python)。
有没有一种方法可以形成一个 http(s) URL,让我可以根据自己的目的获得一个微小的爬行横截面?我相信我查看了一个页面,该页面建议了一种用日、小时、分钟来构建目录的方法,但我似乎无法再次找到该页面。
谢谢!
Seb*_*gel 10
这非常简单:只需从每月的爬网中随机选择一个 WARC(WAT 或 WET)文件即可。抓取信息在此公布: https: //commoncrawl.org/connect/blog/
你很沮丧,因为每个 WARC/WAT/WET 文件都是它自己的随机样本。需要更多数据:只需随机选择更多文件即可。
| 归档时间: |
|
| 查看次数: |
3324 次 |
| 最近记录: |