相关疑难解决方法(0)

有哪些选项可以检测不希望被检测到的网页抓取工具？

(我知道列表检测技术将允许智能隐形爬虫程序员制作出更好的蜘蛛,但我认为无论如何我们都无法阻止智能隐形爬行器,只会犯错误.)

我不是在谈论像googlebot和Yahoo!这样的好爬虫.啜食.我认为机器人很好,如果它:

我正在谈论坏的爬虫,躲在普通用户代理后面,使用我的带宽,从不给我任何回报.

有一些陷阱可以构建更新列表(谢谢Chris,gs):

添加仅在robots.txt中列出(标记为禁止)的目录,
添加不可见的链接(可能标记为rel ="nofollow"？),
- style ="display:none;" 在链接或父容器上
- 放在另一个具有更高z-index的元素下面
检测谁不懂大写,
检测谁试图发布回复但总是失败的验证码.
检测对仅POST资源的GET请求
检测请求之间的间隔
检测请求的页面顺序
检测谁(一致地)通过http请求https资源
检测谁没有请求图像文件(这与已知图像功能的浏览器的用户代理列表组合工作惊人的好)