我应该如何了解搜索引擎抓取?

5 search-engine web-crawler

我不是指SEO的事情.我该怎么知道 如

  1. 引擎运行javascript?
  2. 他们使用饼干吗?
  3. Cookie会携带爬网会话(例如今天的Cookie和下周或下个月的抓取).
  4. 选择的JS过滤器是否因任何原因未加载?(例如因优化原因而被忽略的可疑广告?)

我不想意外地让所有索引页面都说出某种错误或警告信息就像你打开你的cookie,浏览器不支持,或者没有被索引,因为我做了一些愚蠢的事情,比如让我的站点地图指向/r?id=5而没有那么索引,因为它是一个重定向(但我会使用301).

SQL*_*ace 4

从这里: http: //www.google.com/support/webmasters/bin/answer.py? answer=35769

使用文本浏览器(例如Lynx)来检查您的网站,因为大多数搜索引擎蜘蛛都会像 Lynx 一样查看您的网站。如果 JavaScript、cookie、会话 ID、框架、DHTML 或 Flash 等奇特功能使您无法在文本浏览器中查看整个网站,那么搜索引擎蜘蛛可能无法抓取您的网站。

阅读Google 的网站站长指南