如何保护我的站点地图索引文件和 sitemap.xml 文件免受窃贼的攻击?

Tot*_*oto 6 php sitemap

我有一个“内容”网站,一些窃贼和 419 骗子喜欢积极地爬行,这也会产生成本和性能问题。:(我别无选择:我需要阻止他们访问站点地图文件和索引。:(

我正在做与 Facebook 相同的事情:我即时生成站点地图索引 (/sitemap.php)。我使用 DNS 反向查找 (PHP) 和代理检查(与 Stackoverflow 相同)将“好”爬虫列入白名单。为了防止列入白名单的引擎使站点地图索引内容公开,我添加了该标题(Stackoverflow 忘记了):

header('Content-type: application/xml; charset="UTF-8"', true);
header('Pragma: no-cache');
header('X-Robots-Tag: NOARCHIVE');
Run Code Online (Sandbox Code Playgroud)

问题 1:我是否缺少保护站点地图索引文件的内容?

问题 2:问题来自生成的静态站点地图 (.xml.gz) 文件。我怎样才能保护他们?即使它们的名称“难以猜测”,也可以通过简单的谷歌查询轻松找到它们(例如:“ site:stackoverflow.com filetype:xml ”),而且我对 .htaccess 的访问非常有限。

编辑:这不是服务器配置问题。首选语言是 PHP。

编辑 2:对不起,这是纯粹的程序问题,但它已从 SO 转移,我无法关闭/删除它。:(

che*_*vim 4

您始终可以使用站点地图的 URL,除了您明确提交的引擎之外,该 URL 不会透露给任何其他人。

看看http://en.wikipedia.org/wiki/Sitemaps

  • @Toto:我不认为他们是。您发布的示例仅因有人链接到此文件而有效:http://meta.stackexchange.com/questions/22308/stackoverflow-sitemap-wtf (2认同)