小编Max*_*öhm的帖子

CommonCrawl：如何查找特定网页？

我正在使用 CommonCrawl 来恢复我应该实现但没有实现的页面。

在我的理解中，Common Crawl Index 提供对 Common Crawl 存储的所有 URL 的访问。因此，如果实现了 URL，它应该给我一个答案。

一个简单的脚本从可用的爬网下载所有索引：

./cdx-index-client.py -p 4 -c CC-MAIN-2016-18 *.thesun.co.uk --fl url -d CC-MAIN-2016-18
./cdx-index-client.py -p 4 -c CC-MAIN-2016-07 *.thesun.co.uk --fl url -d CC-MAIN-2016-07
... and so on

Run Code Online (Sandbox Code Playgroud)

之后我有 112mb 的数据和简单的 grep：

grep "50569" * -r
grep "Locals-tell-of-terror-shock" * -r

Run Code Online (Sandbox Code Playgroud)

页面不存在。我错过了什么吗？该页面于 2006 年发布并于 2016 年 6 月删除。所以我认为 CommonCrawl 应该已经实现了它们？

更新：感谢塞巴斯蒂安，留下了两个链接......两个网址是：

他们甚至提出了一个“URL 搜索工具”，它用 502 - Bad Gateway 来回答......

search-engine common-crawl

Max*_*öhm

2016 08-10

5
推荐指数

1
解决办法

2303
查看次数

标签统计

common-crawl ×1

search-engine ×1

CommonCrawl：如何查找特定网页？

标签 统计

小编Max_öhm的帖子

标签统计