查找一个国家的“所有”域

use*_*678 3 web-crawler tld

我正在寻找一种找到以给定tld结尾的“所有”网站的方法。关于如何实现这一点,我有几个想法,但是我不确定实现这一点的最佳/最有效方式是什么。我知道蜘蛛等无法找到无处链接的页面,因此在此示例中,我将不在乎孤立的页面。我想做的是,我想有一个TLD作为我的程序的输入,而我要有一个站点列表作为输出。例如:

# <program> .de
- spiegel.de
- deutsche-bank.de
...
- bild.de
Run Code Online (Sandbox Code Playgroud)

那么实现这一目标的最佳方法是什么?有没有可以帮助我的工具,或者您将如何编程?

Nim*_*mir 6

这个答案可能有点晚了,但我刚刚找到了这个。

您可以尝试使用Common Crawler出色的数据。

那么,什么是Common Crawler?

Common Crawl是一个501(c)(3)非营利组织,致力于为研究人员,公司和个人免费提供互联网副本,以进行研究和分析。

使用他们的网址搜索工具进行查询,.de然后将结果下载为json文件。

您将获得一个不错的结果文件,然后您需要对其进行一些处理,因为它包括域的所有站点地图(因此会进行爬网)。

另一个缺点是某些站点使用了不受欢迎的robot.txt文件,因此仍不包括爬虫,这是迄今为止我能找到的最好结果。