tes*_*ing 6 .htaccess seo search-engine
我正在尝试阻止所有机器人/爬虫/蜘蛛的特殊目录.我怎么能这样做htaccess?我搜索了一下,通过基于用户代理的阻塞找到了解决方案:
RewriteCond %{HTTP_USER_AGENT} googlebot
Run Code Online (Sandbox Code Playgroud)
现在我需要更多的用户代理(对于所有已知的机器人),规则应仅对我的单独目录有效.我已经有了robots.txt,但并非所有抓取工具都会看到它...阻止IP地址不是一种选择.还是有其他解决方案吗?我知道密码保护但我必须首先询问这是否是一个选项.然而,我寻找基于用户代理的解决方案.
Laz*_*One 18
您需要启用mod_rewrite.将它放在该文件夹中的.htaccess中.如果放在其他位置(例如父文件夹),则需要稍微修改RewriteRule模式以包含该文件夹名称).
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* - [R=403,L]
Run Code Online (Sandbox Code Playgroud)
anu*_*ava 10
为什么要将.htaccess或mod_rewrite用于专门用于的工作robots.txt?以下是您需要阻止特定目录集的robots.txt片段.
User-agent: *
Disallow: /subdir1/
Disallow: /subdir2/
Disallow: /subdir3/
Run Code Online (Sandbox Code Playgroud)
这将阻止在目录中的所有搜索机器人/subdir1/,/subdir2/和/subdir3/.
有关更多说明,请参见此处:http://www.robotstxt.org/orig.html
我知道这个话题很"老"但是,对于那些也来到这里的人来说(我也一样),你可以看看2013年的5g黑名单.
这是一个很好的帮助,不仅适用于wordpress,也适用于所有其他网站.工作真棒imho.
另一个值得关注的可能是Linux评论反垃圾邮件通过.htaccess