谷歌的网络爬虫会下载二进制文件吗?

jes*_*ica 4 bandwidth google web-crawler

我的 Google-fu 现在让我失望了。

我试图弄清楚 Google 的网络爬虫在抓取网站时是否会下载非图像二进制文件。我知道它会下载(和索引)图像和 PDF,但是 .zip、.dmg 等文件呢?

我的客户在他们的网站上提供了大量可供下载的软件包,他们试图弄清楚搜索引擎是否占据了涉及这些文件的大部分带宽。

msa*_*ord 7

你的第一个问题的答案似乎是“也许”:

Google 可以索引哪些文件类型?

Google 可以为大多数类型的页面和文件的内容编制索引。查看最常见的文件类型。

但是常见文件类型的链接都是文本。

即使您搜索诸如 Windows Installers (.msi) 之类的二进制文件,您也可能会获得指向包含该文件的页面的链接或指向该文件的直接链接,但 Google几乎肯定会根据链接周围的内容来决定如何对其进行索引在页面上,而不是通过下载和解密二进制文件的内容。

至于您的主要问题谷歌推荐的检查机器人是否访问您的网站的方法是使用反向 DNS 查找:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
Run Code Online (Sandbox Code Playgroud)

请记住,Google 的使命是“组织世界上的信息并使其普遍可用且有用”。这意味着他们不断创新,试图以可搜索的方式为非文本数据编制索引。扩展 ceejayoz 的想法,仅仅因为他们昨天没有做,并不意味着他们明天不会做:Google 将尽其所能,以便明天能够做到!

  • 我想知道 Google 是否也可以对二进制文件发出 HEAD 请求。 (2认同)
  • 好点,但记住也要转发解析主机名。“拥有”IP 地址的任何人都可以将 PTR 记录设置为 .googlebot.com 域。 (2认同)