有哪些选项可以检测不希望被检测到的网页抓取工具?
(我知道列表检测技术将允许智能隐形爬虫程序员制作出更好的蜘蛛,但我认为无论如何我们都无法阻止智能隐形爬行器,只会犯错误.)
我不是在谈论像googlebot和Yahoo!这样的好爬虫.啜食.我认为机器人很好,如果它:
我正在谈论坏的爬虫,躲在普通用户代理后面,使用我的带宽,从不给我任何回报.
有一些陷阱可以构建更新列表(谢谢Chris,gs):
一些陷阱将由"好"和"坏"机器人触发.你可以把它们与白名单结合起来:
robots.txt?robots.txt另一个重要的事情是:
请考虑盲人使用屏幕阅读器:给人们一种联系方式,或解决(非图像)Captcha继续浏览.
有哪些方法可以自动检测试图将自己屏蔽为正常人类访问者的网络爬虫.
更新
问题不是:我如何捕获每个爬虫.问题是:如何最大限度地发现爬虫的机会.
有些蜘蛛真的很好,实际上解析和理解html,xhtml,css javascript,VB脚本等......
我没有幻想:我无法击败它们.
然而,你会惊讶于一些爬虫是多么愚蠢.愚蠢的最好例子(在我看来)是:在请求之前将所有URL强制转换为小写.
然后有一大堆爬虫只是"不够好",以避免各种陷门.
web-crawler ×1