Facebook externalhit_uatext 机器人小写网址

Wil*_*ver 5 url facebook

我正在一个具有大小写混合网址的网站上工作,类似于 youtube。我们在服务器上生成 ID,我选择了基数 62(数字、小写和大写字母),因此它们会更短。所以网址可能类似于example.com/user/123AbCaBcfacebook 机器人似乎经常使用全小写版本example.com/user/123abcabc访问我的网站这会导致 404 错误,因为全小写 ID 不在数据库中。

根据日志,没有其他用户代理创建 404,所以这肯定是机器人而不是人类。这是我看到的用户代理:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

这种情况大约每 4 分钟发生一次。我目前没有记录非 404 命中,所以我不确定是否还有其他非小写版本。

这里的服务器技术是 nodejs / mongodb,但我看不出这与手头的问题有什么关系。

我能做些什么来修复 Facebook 吗?这里有问题,还是我应该解决这些日志错误?其他人有类似的问题吗?

Tob*_*obi 3

您的“Web 服务器应用程序”节点(您使用 Express 吗?)当前可能不支持字节范围。Facebook 爬虫显然具有小写 URL 的行为,如下所述:

看一下

关于如何解决这个问题。