相关疑难解决方法(0)

Facebook爬虫正在努力击中我的服务器并忽略指令.多次访问相同的资源

Facebook Crawler每秒都会多次点击我的服务器,它似乎忽略了Expires头和og:ttl属性.

在某些情况下,它在1-5分钟的空间内多次访问相同的og:图像资源.在一个示例中 - 爬虫使用12个不同的IP地址在3分钟的过程中访问相同的图像12次.

在我发现以下示例之前,我只需要记录10分钟的请求:

一个映像的时间列表和爬网程序IP地址:

2018-03-30 15:12:58 - 66.220.156.145
2018-03-30 15:13:13 - 66.220.152.7
2018-03-30 15:12:59 - 66.220.152.100
2018-03-30 15:12:18 - 66.220.155.248
2018-03-30 15:12:59 - 173.252.124.29
2018-03-30 15:12:15 - 173.252.114.118
2018-03-30 15:12:42 - 173.252.85.205
2018-03-30 15:13:01 - 173.252.84.117
2018-03-30 15:12:40 - 66.220.148.100
2018-03-30 15:13:10 - 66.220.148.169
2018-03-30 15:15:16 - 173.252.99.50
2018-03-30 15:14:50 - 69.171.225.134

Run Code Online (Sandbox Code Playgroud)

根据Facebook的文档,og:图像是什么:

有人将内容分享到Facebook时显示的图像的URL.有关详细信息,请参阅下文,并查看我们的最佳做法指南,了解如何指定高质量的预览图像.

我在og:image中使用的图像的Expires标头将来设置为+7天.最近,我将此更改为+1年.两种设置似乎没有任何区别.爬虫似乎忽略的标头:

Cache-Control: max-age=604800
Content-Length: 31048
Content-Type: image/jpeg
Date: Fri, 30 Mar 2018 15:56:47 GMT
Expires: Sat, 30 Mar 2019 15:56:47 GMT …

Run Code Online (Sandbox Code Playgroud)

php facebook web-crawler facebook-graph-api

Way*_*tty

2018 04-03

12
推荐指数

2
解决办法

2562
查看次数