Xiè*_*léi 4 internet google web-crawler
在对我网站的 HTML 进行一些更改后几个小时,我发现 Google 已针对我的网站更新了其搜索结果。互联网这么大,谷歌爬虫是怎么做到的?它不会占用太多带宽吗?
Joh*_*n T 12
谷歌的蜘蛛不断地在网络上爬行。他们有多台机器来抓取他们庞大的索引并一直向其中添加新页面。
速度快的原因:
...在许多其他因素中。
Google 拥有丰富的空间和带宽。你不用担心他们!截至 2008 年 1 月,Google 每天分拣(平均)20PB。20PB(拍字节)是 20,000 TB,或 2000 万千兆字节。现在这只是排序,它不是他们的全部数据,它只是其中的一小部分。
在进行如此大规模的实验时出现了一个有趣的问题:你把 1PB 的排序数据放在哪里?我们将它写入 48,000 个硬盘驱动器(尽管我们没有使用这些磁盘的全部容量),每次我们运行我们的排序时,至少我们的一个磁盘设法损坏(考虑到持续时间,这并不奇怪)测试、涉及的磁盘数量以及硬盘的预期寿命)。为了确保我们排序的 PB 安全,我们要求 Google 文件系统将每个文件的三个副本写入三个不同的磁盘。
简直不可思议。