Hug*_*iro 17 php statistics bots
我正在为我的用户构建统计信息,并且不希望机器人的访问被计算在内.
现在我有一个基本的php,每次调用页面时mysql增加1.
但机器人也被添加到计数中.
有没有人能想到办法?
主要是那些搞乱的主要因素.谷歌,雅虎,Msn等
Rob*_*Rob 23
您可以检查用户代理字符串,空字符串或包含"机器人","蜘蛛","爬虫","卷曲"的字符串可能是机器人.
preg_match('/robot|spider|crawler|curl|^$/i', $_SERVER['HTTP_USER_AGENT']));
您应该按用户代理字符串进行筛选.您可以在此处找到由机器人提供的大约300个常见用户代理的列表:http://www.robotstxt.org/db.html运行该列表并在运行SQL语句之前忽略bot用户代理应解决您的问题出于所有实际目的.
如果您不希望搜索引擎甚至到达该页面,请使用基本的robots.txt文件来阻止它们.
我们有一个类似的用例,我们最近发现一个非常有用的选项是来自user-agent-string.info的UASParser类.
它是一个PHP类,它提取最新的用户代理字符串定义集并在本地缓存它们.可以将类配置为根据您的需要经常或很少地提取定义.像这样自动获取它们意味着您不必继续对bot用户代理或市场上出现的新代理进行各种更改,尽管您依靠UAS.info来准确地执行此操作.
调用类时,它会解析当前访问者的用户代理并返回一个关联数组,从而分解组成部分,例如
Array
(
[typ] => browser
[ua_family] => Firefox
[ua_name] => Firefox 3.0.8
[ua_url] => http://www.mozilla.org/products/firefox/
[ua_company] => Mozilla Foundation
........
[os_company] => Microsoft Corporation.
[os_company_url] => http://www.microsoft.com/
[os_icon] => windowsxp.png
)
Run Code Online (Sandbox Code Playgroud)
该字段typ设置为browser当UA被识别为可能属于人类访问者时,在这种情况下,您可以更新您的统计数据.
这里有几点需要注意: