我的 Google-fu 现在让我失望了。
我试图弄清楚 Google 的网络爬虫在抓取网站时是否会下载非图像二进制文件。我知道它会下载(和索引)图像和 PDF,但是 .zip、.dmg 等文件呢?
我的客户在他们的网站上提供了大量可供下载的软件包,他们试图弄清楚搜索引擎是否占据了涉及这些文件的大部分带宽。
bandwidth google web-crawler
bandwidth ×1
google ×1
web-crawler ×1