我正在一个具有大小写混合网址的网站上工作,类似于 youtube。我们在服务器上生成 ID,我选择了基数 62(数字、小写和大写字母),因此它们会更短。所以网址可能类似于example.com/user/123AbCaBcfacebook 机器人似乎经常使用全小写版本example.com/user/123abcabc访问我的网站这会导致 404 错误,因为全小写 ID 不在数据库中。
根据日志,没有其他用户代理创建 404,所以这肯定是机器人而不是人类。这是我看到的用户代理:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
这种情况大约每 4 分钟发生一次。我目前没有记录非 404 命中,所以我不确定是否还有其他非小写版本。
这里的服务器技术是 nodejs / mongodb,但我看不出这与手头的问题有什么关系。
我能做些什么来修复 Facebook 吗?这里有问题,还是我应该解决这些日志错误?其他人有类似的问题吗?
您的“Web 服务器应用程序”节点(您使用 Express 吗?)当前可能不支持字节范围。Facebook 爬虫显然具有小写 URL 的行为,如下所述:
看一下
关于如何解决这个问题。
| 归档时间: |
|
| 查看次数: |
357 次 |
| 最近记录: |