在robots.txt中,我可以为站点地图文件编写以下相对URL吗?
sitemap: /sitemap.ashx
Run Code Online (Sandbox Code Playgroud)
或者我必须使用站点地图文件的完整(绝对)URL,例如:
sitemap: http://subdomain.domain.com/sitemap.ashx
Run Code Online (Sandbox Code Playgroud)
为什么我想知道:
在blog.domain.com中,我放了robots.txt让搜索引擎找到站点地图.但是,由于通配符,所有用户帐户共享相同的robots.txt文件.这就是为什么我不能使用第二种方法.而目前我不能使用url重写txt文件.(我想IIS的更高版本可以处理这个?)
我robots.txt
在Google网站站长工具中显示以下值:
User-agent: *
Allow: /
Run Code Online (Sandbox Code Playgroud)
这是什么意思?我对此知之甚少,所以寻求你的帮助.我想允许所有机器人抓取我的网站,这是正确的配置吗?
是否有任何聪明的解决方案可以在Flask的应用程序根目录中存储静态文件.robots.txt和sitemap.xml应该在/中找到,所以我的想法是为它们创建路由:
@app.route('/sitemap.xml', methods=['GET'])
def sitemap():
response = make_response(open('sitemap.xml').read())
response.headers["Content-type"] = "text/plain"
return response
Run Code Online (Sandbox Code Playgroud)
必须有更方便的东西:)
我想谷歌忽略这样的网址:
http://www.mydomain.com/new-printers?dir=asc&order=price&p=3
所有具有参数dir,order和price的url都应该被忽略但我没有使用Robots.txt的经验.
任何的想法?
我目前正在开发一个使用Express(Node.js)构建的应用程序,我想知道处理不同环境(开发,生产)的不同robots.txt的最聪明方法是什么.
这就是我现在所拥有的,但我不相信解决方案,我认为它很脏:
app.get '/robots.txt', (req, res) ->
res.set 'Content-Type', 'text/plain'
if app.settings.env == 'production'
res.send 'User-agent: *\nDisallow: /signin\nDisallow: /signup\nDisallow: /signout\nSitemap: /sitemap.xml'
else
res.send 'User-agent: *\nDisallow: /'
Run Code Online (Sandbox Code Playgroud)
(注意:这是CoffeeScript)
应该有更好的方法.你会怎么做?
谢谢.
我使用Github存储我的一个网站的文本,但问题是谷歌也在Github索引文本.因此,相同的文本将显示在我的网站和Github上.例如,这个搜索最热门的是我的网站.第二个命中是Github存储库.
我不介意人们是否看到消息来源,但我不希望Google对其进行索引(并且可能会对重复内容进行处罚.)除了将存储库设为私有之外,还有什么方法可以告诉Google停止对其进行索引吗?
在Github Pages的情况下会发生什么?这些是源在Github存储库中的站点.他们有同样的重复问题吗?
有没有办法对robots.txt和.htaccess语法进行颜色编码/突出显示?例如,使用SublimeText2插件.我找到了这个,但无法弄清楚如何安装它:https://github.com/shellderp/sublime-robot-plugin
不,我不是要求你教我黑客,我只是对这个文件及其内容感到好奇.
当我潜入新的HTML5 Boilerplate时,我遇到了human.txt.我用Google搜索,我来到这个网站http://humanstxt.org/.
我立刻注意到了这张照片:
我读得对吗?Hackers.txt
?
所以我在google中恢复了我的旅程,并停止了这篇文章
当我开始阅读本文时,我感觉它是关于黑客和克拉克斯之间的区别.后来我觉得我可能错了,这个地方是这个hackers.txt文件是黑客的一种留言簿?
还有关于我在这里找到的hackers.txt文件的其他示例
有些文件包含代码,有些文件只包含有害信息.
现在我真的很困惑,留言,黑客教程或只是历史?
这个hackers.txt文件有什么用?
我一直在搜索谷歌,但我找不到这个问题的答案.
robots.txt文件可以包含以下行:
Sitemap: http://www.mysite.com/sitemapindex.xml
Run Code Online (Sandbox Code Playgroud)
但是是否可以在robots.txt中指定多个站点地图索引文件并让搜索引擎识别并抓取每个站点地图索引文件中引用的所有站点地图?例如,这会工作:
Sitemap: http://www.mysite.com/sitemapindex1.xml
Sitemap: http://www.mysite.com/sitemapindex2.xml
Sitemap: http://www.mysite.com/sitemapindex3.xml
Run Code Online (Sandbox Code Playgroud) 我似乎无法让这个工作,但它似乎非常基本.
我希望抓取域根目录
http://www.example.com
Run Code Online (Sandbox Code Playgroud)
但没有别的东西可以被抓取,所有子目录都是动态的
http://www.example.com/*
Run Code Online (Sandbox Code Playgroud)
我试过了
User-agent: *
Allow: /
Disallow: /*/
Run Code Online (Sandbox Code Playgroud)
但Google网站站长测试工具表示允许所有子目录.
有人有解决方案吗?谢谢 :)