相关疑难解决方法(0)

Facebook爬虫正在努力击中我的服务器并忽略指令.多次访问相同的资源

Facebook Crawler每秒都会多次点击我的服务器,它似乎忽略了Expires头和og:ttl属性.

在某些情况下,它在1-5分钟的空间内多次访问相同的og:图像资源.在一个示例中 - 爬虫使用12个不同的IP地址在3分钟的过程中访问相同的图像12次.

在我发现以下示例之前,我只需要记录10分钟的请求:

一个映像的时间列表和爬网程序IP地址:

2018-03-30 15:12:58 - 66.220.156.145
2018-03-30 15:13:13 - 66.220.152.7
2018-03-30 15:12:59 - 66.220.152.100
2018-03-30 15:12:18 - 66.220.155.248
2018-03-30 15:12:59 - 173.252.124.29
2018-03-30 15:12:15 - 173.252.114.118
2018-03-30 15:12:42 - 173.252.85.205
2018-03-30 15:13:01 - 173.252.84.117
2018-03-30 15:12:40 - 66.220.148.100
2018-03-30 15:13:10 - 66.220.148.169
2018-03-30 15:15:16 - 173.252.99.50
2018-03-30 15:14:50 - 69.171.225.134
Run Code Online (Sandbox Code Playgroud)

根据Facebook的文档,og:图像是什么:

有人将内容分享到Facebook时显示的图像的URL.有关详细信息,请参阅下文,并查看我们的最佳做法指南,了解如何指定高质量的预览图像.

我在og:image中使用的图像的Expires标头将来设置为+7天.最近,我将此更改为+1年.两种设置似乎没有任何区别.爬虫似乎忽略的标头:

Cache-Control: max-age=604800
Content-Length: 31048
Content-Type: image/jpeg
Date: Fri, 30 Mar 2018 15:56:47 GMT
Expires: Sat, 30 Mar 2019 15:56:47 GMT …
Run Code Online (Sandbox Code Playgroud)

php facebook web-crawler facebook-graph-api

12
推荐指数
2
解决办法
2562
查看次数

Facebook和Robots.txt中的Crawl-delay?

Facebook的网络浏览机器人是否尊重文件中的Crawl-delay:指令robots.txt

seo facebook robots.txt

11
推荐指数
3
解决办法
6441
查看次数

Facebook Crawler Bot Crashing Site

Facebook刚刚实现了一些网络爬虫吗?我的网站在过去几天里已经崩溃了几次,严重超载了我追溯到Facebook的IP.

我试过谷歌搜索但无法找到任何关于通过robots.txt控制Facebook的爬虫机器人的权威资源.有关添加以下内容的参考:

用户代理:facebookexternalhit/1.1抓取延迟:5

用户代理:facebookexternalhit/1.0抓取延迟:5

用户代理:facebookexternalhit/*抓取延迟:5

但我找不到任何关于Facebook机器人是否尊重robots.txt的具体参考.根据较老的消息来源,Facebook"不会抓取您的网站".但这肯定是假的,因为我的服务器日志显示他们以每秒多页的速率从69.171.237.0/24和69.171.229.115/24范围内的十几个IP中爬行我的站点.

我找不到任何关于此的文献.我怀疑这是FB刚刚在过去几天实施的新功能,因为我的服务器从未崩溃过.

有人可以请教吗?

facebook bots web-crawler

7
推荐指数
1
解决办法
5600
查看次数

标签 统计

facebook ×3

web-crawler ×2

bots ×1

facebook-graph-api ×1

php ×1

robots.txt ×1

seo ×1