我有一个“内容”网站,一些窃贼和 419 骗子喜欢积极地爬行,这也会产生成本和性能问题。:(我别无选择:我需要阻止他们访问站点地图文件和索引。:(
我正在做与 Facebook 相同的事情:我即时生成站点地图索引 (/sitemap.php)。我使用 DNS 反向查找 (PHP) 和代理检查(与 Stackoverflow 相同)将“好”爬虫列入白名单。为了防止列入白名单的引擎使站点地图索引内容公开,我添加了该标题(Stackoverflow 忘记了):
header('Content-type: application/xml; charset="UTF-8"', true);
header('Pragma: no-cache');
header('X-Robots-Tag: NOARCHIVE');
Run Code Online (Sandbox Code Playgroud)
问题 1:我是否缺少保护站点地图索引文件的内容?
问题 2:问题来自生成的静态站点地图 (.xml.gz) 文件。我怎样才能保护他们?即使它们的名称“难以猜测”,也可以通过简单的谷歌查询轻松找到它们(例如:“ site:stackoverflow.com filetype:xml ”),而且我对 .htaccess 的访问非常有限。
编辑:这不是服务器配置问题。首选语言是 PHP。
编辑 2:对不起,这是纯粹的程序问题,但它已从 SO 转移,我无法关闭/删除它。:(
做一个top检查io等待,我得到这些数字:
Cpu(s): 6.7%us, 1.4%sy, 1.2%ni, 85.5%id, 5.0%wa, 0.0%hi, 0.3%si, 0.0%st
Run Code Online (Sandbox Code Playgroud)
看看这些数字 (%us ~= %wa),它们是否意味着:
我看到存储 Apache 自签名 SSL 证书的不同位置。
在什么情况下应该使用哪一个?