查找一个国家的“所有”域

Question

我正在寻找一种找到以给定tld结尾的“所有”网站的方法。关于如何实现这一点，我有几个想法，但是我不确定实现这一点的最佳/最有效方式是什么。我知道蜘蛛等无法找到无处链接的页面，因此在此示例中，我将不在乎孤立的页面。我想做的是，我想有一个TLD作为我的程序的输入，而我要有一个站点列表作为输出。例如：

# <program> .de
- spiegel.de
- deutsche-bank.de
...
- bild.de

那么实现这一目标的最佳方法是什么？有没有可以帮助我的工具，或者您将如何编程？

Answer 1

这个答案可能有点晚了，但我刚刚找到了这个。

您可以尝试使用Common Crawler出色的数据。

那么，什么是Common Crawler？

Common Crawl是一个501（c）（3）非营利组织，致力于为研究人员，公司和个人免费提供互联网副本，以进行研究和分析。

使用他们的网址搜索工具进行查询，.de然后将结果下载为json文件。

您将获得一个不错的结果文件，然后您需要对其进行一些处理，因为它包括域的所有站点地图（因此会进行爬网）。

另一个缺点是某些站点使用了不受欢迎的robot.txt文件，因此仍不包括爬虫，这是迄今为止我能找到的最好结果。