我想告诉谷歌不要索引页面的某些部分,在yandex(俄语se)中有一个非常有用的标签叫做<noindex>
.怎么用谷歌呢?
我Header
在vhost配置中放置了以下内容:
Header set X-Robots-Tag "noindex, nofollow"
Run Code Online (Sandbox Code Playgroud)
这里的目标是禁止搜索引擎索引我的测试环境.该网站是Wordpress,并安装了一个插件来管理每页元机器人设置.例如:
<meta name="robots" content="index, follow" />
Run Code Online (Sandbox Code Playgroud)
所以我的问题是,哪个指令优先于另一个指令,因为两个指令都设置在每个页面上?
FastAPI 是否需要 robots.txt 和标签 noindex?我正在创建不应该由匿名调用的业务 api 应用程序。所以我想知道我是否必须准备robots.txt和标签noindex以避免任何爬虫的操作。
我制作了 robots.txt 路由器,如下所示:
@router.get('/robots.txt')
def robots():
data = """
User-agent: *
Disallow: /
"""
return Response(content=data, media_type='text/plain')
Run Code Online (Sandbox Code Playgroud)
我需要再做一次改变吗?
我需要一些关于我的问题的解释.
已添加我标题的示例
<meta name="robots" content="noindex, nofollow" />
Run Code Online (Sandbox Code Playgroud)
我应该再次向标题添加规范标记吗?
<link rel=”canonical” href=”http://www.example.com/product.php?item=big-fish” />
Run Code Online (Sandbox Code Playgroud)
让我知道 :)
更新
我们知道规范标签目前也受到谷歌,雅虎和实时搜索的支持.noindex和nofollow怎么样?雅虎和现场(bing)也支持吗?
下面的列表有什么区别:
<meta name="robots" content="index, follow">
<meta name="robots" content="follow">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="index, nofollow">
<meta name="robots" content="noindex, nofollow">
Run Code Online (Sandbox Code Playgroud) 我可以'无索引,在.htaccess中使用x机器人的特定页面吗?
我已经找到了一些没有索引文件类型的说明,但是我找不到指令来对单个页面进行索引,而我到目前为止所尝试的内容并没有奏效.
这是我正在寻找noindex的页面:
http://www.examplesite.com.au/index.php?route=news/headlines
Run Code Online (Sandbox Code Playgroud)
这是我到目前为止所尝试的:
<FilesMatch "/index.php?route=news/headlines$">
Header set X-Robots-Tag "noindex, follow"
</FilesMatch>
Run Code Online (Sandbox Code Playgroud)
谢谢你的时间.
我有一个要保护的pdf文件,不想让搜索引擎将其编入索引。
目前,我的链接如下:
<a href="https://example.com/mypdf.pdf" target="_blank" rel="noopener">View PDF</a>
Run Code Online (Sandbox Code Playgroud)
我可以nofollow
在rel
标签中添加标签吗?
然后我将这两种情况分为昏迷状态还是无昏迷状态?
目前尝试rel=nofollow noopener
无昏迷。
我可以添加noindex
到同一标签吗?
<a href="https://example.com/mypdf.pdf" target="_blank" rel="nofollow noindex noopener">View PDF</a>
Run Code Online (Sandbox Code Playgroud)
这行得通吗?
我在我的网站 www.domain/privacy-policy/ 上有一个隐私政策页面,我想用 X Robots 标签对其进行索引。我试过下面的代码,但它不匹配
# BEGIN WordPress
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
## Redirect HTTP to HTTPS
RewriteCond %{HTTPS} off
RewriteRule ^(.*)$ https://%{HTTP_HOST}%{REQUEST_URI} [L,R=301]
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
RewriteRule ^privacy-policy - [env=NOINDEXFOLLOW:true]
Header set X-Robots-Tag "noindex, follow" env=NOINDEXFOLLOW
</IfModule>
# END WordPress
Run Code Online (Sandbox Code Playgroud)
为清楚起见,问题已被编辑为包含完整的 htaccess 文件。
我有一个由我的公开个人资料组成的网站,用 Jekyll 制作。
它还包含一个页面,例如“details.html”,其中包含有关我的更多个人信息。我只希望那些我向其提供链接的人能够看到此页面。特别是,我想对搜索引擎隐藏它。
我怎样才能最好地做到这一点?我听说我可以添加 robots.txt 文件或包含元标记“nofollow”或“noindex”。
我们有一些公开分享的S3文件,我们希望确保这些文件不会被Google编入索引.我似乎无法找到有关如何执行此操作的任何文档.有没有办法在各个S3对象上设置"noindex"x-robots-tag响应头?
(我们正在使用Ruby AWS客户端)
是否可以使用apache .htaccess基于URL的查询字符串应用HTTP头指令?
例如,根据此资源http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html标题为"实际实施X-Robots-Tag with Apache"一节,它说明了以下.htaccess文件指令可以使用:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Run Code Online (Sandbox Code Playgroud)
我正在寻找以下内容:
<QueryString ~ "m=_!">
Header set X-Robots-Tag "noindex, nofollow"
</QueryString>
Run Code Online (Sandbox Code Playgroud)
这样,搜索引擎就不会将以下网址编入索引:
http://domain.com/?m=_!ajax_html_snippet
Run Code Online (Sandbox Code Playgroud)
任何提示/提示/线索将非常感激.谢谢.
我有 2 个网站。第一个是“test-www.xxxxxx.net”,另一个是“www.xxxxxx.net”。我想制作一个动态无索引元标记。Google 机器人可以为我的实时网站编制索引,但我不希望将其用于我的测试网站。通常我可以添加一个属性并使其在 _Layout.cshtml 中动态化,如下所示。
@if (!Helper.IsLiveSite())
{
<meta name="robots" content="noindex">
}
Run Code Online (Sandbox Code Playgroud)
有没有办法可以将其写入 robots.txt 文件?有些文章中写道“我强烈建议您尽可能使用Noindex。 ”
所以请帮忙!我怎样才能在robot.txt中做到这一点?我不知道下面的文件是否会产生错误。
User-agent: *
Disallow: /styles/
Sitemap: http://xxxxxx/sitemap/sitemap.xml
Noindex: test-www.xxxxxxx.net/*
Noindex: http://test-www.xxxxxxx.net/*
Noindex: https://test-www.xxxxxxx.net/*
Run Code Online (Sandbox Code Playgroud)
谢谢。
我正在使用 Heroku 管道。因此,当我推送应用程序时,它会被推送到暂存应用程序
https://appname.herokuapp.com/
Run Code Online (Sandbox Code Playgroud)
如果一切正确,我就会将该应用程序推广到生产环境。没有新的构建过程。这是第一次构建用于登台的同一个应用程序。
https://appname.com/
Run Code Online (Sandbox Code Playgroud)
问题是这会导致重复内容的问题。站点是彼此的克隆。一模一样。我想从 Google 索引和搜索引擎中排除暂存应用程序。
我想到的一种方法是使用robots.txt文件。
为了这个工作我应该这样写
User-agent: *
Disallow: https://appname.herokuapp.com/
Run Code Online (Sandbox Code Playgroud)
使用绝对路径,因为该文件将位于暂存和生产应用程序的服务器上,我只想从 Google 索引中删除暂存应用程序,而不是触及生产应用程序。
这是正确的做法吗?
noindex ×13
nofollow ×5
seo ×5
.htaccess ×3
http-headers ×3
robots.txt ×3
html ×2
wordpress ×2
amazon-s3 ×1
apache ×1
fastapi ×1
googlebot ×1
header ×1
heroku ×1
jekyll ×1
meta-tags ×1
mod-rewrite ×1
query-string ×1
robot ×1
ruby ×1
x-robots-tag ×1
yandex ×1