下面是一个示例robots.txt文件,允许多个用户代理为每个用户代理提供多个爬网延迟.抓取延迟值仅用于说明目的,并且在真实的robots.txt文件中会有所不同.
我已经在网上搜索了正确的答案,但找不到一个.有太多混合的建议,我不知道哪个是正确/正确的方法.
问题:
(1)每个用户代理都可以拥有自己的抓取延迟吗?(我假设是的)
(2)在Allow/Dissallow行之前或之后,您在哪里为每个用户代理放置了爬行延迟行?
(3)每个用户代理组之间是否必须有空白.
参考文献:
http://www.seopt.com/2013/01/robots-text-file/
http://help.yandex.com/webmaster/?id=1113851#1113858
基本上,我希望找出最终robots.txt文件应该如何使用下面示例中的值.
提前致谢.
# Allow only major search spiders
User-agent: Mediapartners-Google
Disallow:
Crawl-delay: 11
User-agent: Googlebot
Disallow:
Crawl-delay: 12
User-agent: Adsbot-Google
Disallow:
Crawl-delay: 13
User-agent: Googlebot-Image
Disallow:
Crawl-delay: 14
User-agent: Googlebot-Mobile
Disallow:
Crawl-delay: 15
User-agent: MSNBot
Disallow:
Crawl-delay: 16
User-agent: bingbot
Disallow:
Crawl-delay: 17
User-agent: Slurp
Disallow:
Crawl-delay: 18
User-agent: Yahoo! Slurp
Disallow:
Crawl-delay: 19
# Block all other spiders
User-agent: *
Disallow: /
# Block …
Run Code Online (Sandbox Code Playgroud) 这是我目前服务robots.txt的方法
url(r'^robots\.txt/$', TemplateView.as_view(template_name='robots.txt',
content_type='text/plain')),
Run Code Online (Sandbox Code Playgroud)
我不认为这是最好的方式.我认为如果它只是一个纯粹的静态资源并静态服务会更好.但我的django应用程序的结构方式是静态根和所有后续静态文件都位于
http://my.domain.com/static/stuff-here
Run Code Online (Sandbox Code Playgroud)
有什么想法吗?我是django的业余爱好者
TemplateView.as_view(template_name='robots.txt',
content_type='text/plain')
Run Code Online (Sandbox Code Playgroud)
看起来比在nginx上提供的静态目录的静态调用消耗更多的资源.
我即将发布一个Rails应用程序,作为最后一项任务,我不想设置robots.txt文件.我找不到有关如何为Rails应用程序正确编写路径的信息.
起始路径始终是Rails应用程序或app文件夹的根路径吗?那我怎么会不允许例如img文件夹?
我是否必须在应用程序文件夹中编写路径,或者在网站上查看路径的样子,例如http://example.com/admin?
Bingbot会在每天几个小时内非常努力地访问我的网站,并且在剩下的时间里会非常轻松.
我要么想要平滑它的爬行,降低它的速率限制,要么完全阻止它.它并不真正通过任何真正的访问者发送.
有没有办法可以平滑其爬行或速率限制呢?
我希望我的登台网站不被搜索引擎索引(谷歌为第一).
我听说Wordpress擅长这样做,但我想成为技术不可知论者.
robots.txt足够了吗?我们希望匿名访问,让客户无需登录即可查看其网站.
我必须在每个页面添加nofollow吗?
我很久以前将我的robots.txt文件提交给Google,它仍然给我一个不理解第一行的语法.
谷歌搜索后最常见的问题是Google添加'?' 在线的开头,但它不是这样做的.
robots.txt的网址是
www.leisurepursuits.co.uk/robots.txt
错误是:
第1行:用户代理:*语法不明白
我想阻止搜索引擎抓取我的整个网站.
我有一个公司成员使用的Web应用程序.它托管在Web服务器上,以便公司的员工可以访问它.没有其他人(公众)需要它或发现它有用.
因此,我希望添加另一层安全性(理论上),以通过完全取消所有搜索引擎机器人/抓取工具对其的访问来尝试防止未经授权的访问.让谷歌索引我们的网站以使其可搜索从商业角度来看是没有意义的,只是为黑客添加了另一种方式来首先找到网站来尝试破解它.
我知道robots.txt
你可以告诉搜索引擎不要抓取某些目录.
是否有可能告诉机器人不要抓取整个网站而不必列出所有不爬网的目录?
最好robots.txt
用.htaccess或其他方法完成或最好吗?
我的存储库username.github.io有一个github页面
但是,我不希望谷歌抓取我的网站,绝对不希望它出现在搜索结果上.
只需在github页面中使用robots.txt工作吗?我知道有停止索引Github存储库的教程但是实际的Github页面怎么样?
我想允许爬虫访问我的域的根目录(即index.html文件),但没有更深层次的(即没有子目录).我不想在robots.txt文件中单独列出和拒绝每个子目录.目前我有以下内容,但我认为它阻止了所有内容,包括域根目录中的内容.
User-agent: *
Allow: /$
Disallow: /
Run Code Online (Sandbox Code Playgroud)
我怎么能写我的robots.txt来完成我想要的东西?
提前致谢!
robots.txt ×10
web-crawler ×2
.htaccess ×1
agents ×1
bing ×1
bingbot ×1
django ×1
format ×1
github-pages ×1
http-headers ×1
meta-tags ×1
nofollow ×1
python ×1
security ×1
web ×1