标签: robots.txt

Robots.txt - 多个用户代理的抓取延迟的正确格式是什么?

下面是一个示例robots.txt文件,允许多个用户代理为每个用户代理提供多个爬网延迟.抓取延迟值仅用于说明目的,并且在真实的robots.txt文件中会有所不同.

我已经在网上搜索了正确的答案,但找不到一个.有太多混合的建议,我不知道哪个是正确/正确的方法.

问题:

(1)每个用户代理都可以拥有自己的抓取延迟吗?(我假设是的)

(2)在Allow/Dissallow行之前或之后,您在哪里为每个用户代理放置了爬行延迟行?

(3)每个用户代理组之间是否必须有空白.

参考文献:

http://www.seopt.com/2013/01/robots-text-file/

http://help.yandex.com/webmaster/?id=1113851#1113858

基本上,我希望找出最终robots.txt文件应该如何使用下面示例中的值.

提前致谢.

# Allow only major search spiders    
User-agent: Mediapartners-Google
Disallow:
Crawl-delay: 11

User-agent: Googlebot
Disallow:
Crawl-delay: 12

User-agent: Adsbot-Google
Disallow:
Crawl-delay: 13

User-agent: Googlebot-Image
Disallow:
Crawl-delay: 14

User-agent: Googlebot-Mobile
Disallow:
Crawl-delay: 15

User-agent: MSNBot
Disallow:
Crawl-delay: 16

User-agent: bingbot
Disallow:
Crawl-delay: 17

User-agent: Slurp
Disallow:
Crawl-delay: 18

User-agent: Yahoo! Slurp
Disallow:
Crawl-delay: 19

# Block all other spiders
User-agent: *
Disallow: /

# Block …
Run Code Online (Sandbox Code Playgroud)

format robots.txt web-crawler agents

18
推荐指数
1
解决办法
3万
查看次数

django有效地服务robots.txt

这是我目前服务robots.txt的方法

url(r'^robots\.txt/$', TemplateView.as_view(template_name='robots.txt',
                                            content_type='text/plain')),
Run Code Online (Sandbox Code Playgroud)

我不认为这是最好的方式.我认为如果它只是一个纯粹的静态资源并静态服务会更好.但我的django应用程序的结构方式是静态根和所有后续静态文件都位于

http://my.domain.com/static/stuff-here
Run Code Online (Sandbox Code Playgroud)

有什么想法吗?我是django的业余爱好者

 TemplateView.as_view(template_name='robots.txt',
                                  content_type='text/plain')
Run Code Online (Sandbox Code Playgroud)

看起来比在nginx上提供的静态目录的静态调用消耗更多的资源.

python django robots.txt

17
推荐指数
2
解决办法
1万
查看次数

Rails robots.txt文件夹

我即将发布一个Rails应用程序,作为最后一项任务,我不想设置robots.txt文件.我找不到有关如何为Rails应用程序正确编写路径的信息.

起始路径始终是Rails应用程序或app文件夹的根路径吗?那我怎么会不允许例如img文件夹?

我是否必须在应用程序文件夹中编写路径,或者在网站上查看路径的样子,例如http://example.com/admin

robots.txt ruby-on-rails

17
推荐指数
1
解决办法
1万
查看次数

如何阻止Bing不规则地淹没我的网站流量?

Bingbot会在每天几个小时内非常努力地访问我的网站,并且在剩下的时间里会非常轻松.

我要么想要平滑它的爬行,降低它的速率限制,要么完全阻止它.它并不真正通过任何真正的访问者发送.

有没有办法可以平滑其爬行或速率限制呢?

robots.txt web-crawler bing bingbot

16
推荐指数
2
解决办法
1万
查看次数

如何防止在搜索引擎中索引分段

我希望我的登台网站不被搜索引擎索引(谷歌为第一).

我听说Wordpress擅长这样做,但我想成为技术不可知论者.

robots.txt足够了吗?我们希望匿名访问,让客户无需登录即可查看其网站.

我必须在每个页面添加nofollow吗?

search-engine robots.txt nofollow web

16
推荐指数
1
解决办法
8241
查看次数

Robots.txt语法不明白

我很久以前将我的robots.txt文件提交给Google,它仍然给我一个不理解第一行的语法.

谷歌搜索后最常见的问题是Google添加'?' 在线的开头,但它不是这样做的.

robots.txt的网址是

www.leisurepursuits.co.uk/robots.txt

错误是:

第1行:用户代理:*语法不明白

robots.txt google-webmaster-tools

15
推荐指数
1
解决办法
6289
查看次数

如何阻止搜索引擎抓取整个网站?

我想阻止搜索引擎抓取我的整个网站.

我有一个公司成员使用的Web应用程序.它托管在Web服务器上,以便公司的员工可以访问它.没有其他人(公众)需要它或发现它有用.

因此,我希望添加另一层安全性(理论上),以通过完全取消所有搜索引擎机器人/抓取工具对其的访问来尝试防止未经授权的访问.让谷歌索引我们的网站以使其可搜索从商业角度来看是没有意义的,只是为黑客添加了另一种方式来首先找到网站来尝试破解它.

我知道robots.txt你可以告诉搜索引擎不要抓取某些目录.

是否有可能告诉机器人不要抓取整个网站而不必列出所有不爬网的目录?

最好robots.txt用.htaccess或其他方法完成或最好吗?

security .htaccess robots.txt

14
推荐指数
2
解决办法
1万
查看次数

停止Github页面的索引

我的存储库username.github.io有一个github页面

但是,我不希望谷歌抓取我的网站,绝对不希望它出现在搜索结果上.

只需在github页面中使用robots.txt工作吗?我知道有停止索引Github存储库的教程但是实际的Github页面怎么样?

robots.txt github-pages

14
推荐指数
4
解决办法
5994
查看次数

Robots.txt,如何只允许访问域根目录,而不是更深入?

我想允许爬虫访问我的域的根目录(即index.html文件),但没有更深层次的(即没有子目录).我不想在robots.txt文件中单独列出和拒绝每个子目录.目前我有以下内容,但我认为它阻止了所有内容,包括域根目录中的内容.

User-agent: *
Allow: /$
Disallow: /
Run Code Online (Sandbox Code Playgroud)

我怎么能写我的robots.txt来完成我想要的东西?

提前致谢!

robots.txt

13
推荐指数
1
解决办法
6680
查看次数

用于检测Google Chrome的预加载请求的HTTP标头

Google Chrome 17引入了一项新功能,该功能可预加载网页,以便在实际发出请求时提高呈现速度(点击输入omnibar).

两个问题:是否有HTTP头在服务器端检测到这样的请求,如果实际存在一个什么是正确的响应以防止这样的预加载(以防止可能产生不良影响的意外请求)?

在进行预加载请求之前,Google Chrome是否会检查robots.txt?是否有针对此特定行为的robots.txt设置?(我希望/希望不允许已经有效).

是否有元标记通知Google Chrome永远不会在当前域上再次预加载?

google-chrome robots.txt meta-tags http-headers

13
推荐指数
2
解决办法
7710
查看次数