WordPress 网站元机器人标签遇到了一个奇怪的问题。所有页面都有以下元标记,我们似乎无法删除它
<meta name="robots" content="noindex,follow"/>
Run Code Online (Sandbox Code Playgroud)
我们在“设置”>“阅读”>“搜索引擎可见性”中取消选中“阻止搜索引擎对此网站建立索引”,但它没有任何作用。
我们正在使用 Yoast SEO 插件,但即使禁用该插件,该插件 <meta name="robots" content="noindex,follow"/>
仍然存在。事实上,我们已经尝试禁用所有插件以检查是否没有任何干扰。
我们的文件设置Robots.txt
如下:
User-agent: *
Disallow:
Sitemap: http://example.co.uk/sitemap.xml
Run Code Online (Sandbox Code Playgroud)
我不确定是否robots.txt
优先于机器人元标记,并且似乎没有明确的答案,据我所知,最严格的一个将优先,即在我们的情况下为元标记。
这主要是给我们的 Google 列表带来问题,其中出现警告“由于此网站的原因,此结果的说明不可用robots.txt
”,而不是我们的网站说明。
如果情况更糟,我们可以编辑 wp_no_robots 函数,wp-includes/general-templates.php
但更愿意在不编辑 wp 核心文件的情况下解决这个问题。
我有 2 个网站。第一个是“test-www.xxxxxx.net”,另一个是“www.xxxxxx.net”。我想制作一个动态无索引元标记。Google 机器人可以为我的实时网站编制索引,但我不希望将其用于我的测试网站。通常我可以添加一个属性并使其在 _Layout.cshtml 中动态化,如下所示。
@if (!Helper.IsLiveSite())
{
<meta name="robots" content="noindex">
}
Run Code Online (Sandbox Code Playgroud)
有没有办法可以将其写入 robots.txt 文件?有些文章中写道“我强烈建议您尽可能使用Noindex。 ”
所以请帮忙!我怎样才能在robot.txt中做到这一点?我不知道下面的文件是否会产生错误。
User-agent: *
Disallow: /styles/
Sitemap: http://xxxxxx/sitemap/sitemap.xml
Noindex: test-www.xxxxxxx.net/*
Noindex: http://test-www.xxxxxxx.net/*
Noindex: https://test-www.xxxxxxx.net/*
Run Code Online (Sandbox Code Playgroud)
谢谢。
我最近继承了一个代码库并发现了这个宝石:
{% if PAGE_EXTRAS.hide_from_sitemap %}
<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
{% endif %}
Run Code Online (Sandbox Code Playgroud)
我不知道它想做什么。您是否有理由在这样的网站中放置多个明显冲突的机器人标签?或者它真的像我无知的眼睛看起来那么疯狂吗?
我在本地主机(开发机器)上运行 Django,我在调试控制台中遇到了这个:
Not Found: /robots.txt
2018-03-20 22:58:03,173 WARNING Not Found: /robots.txt
[20/Mar/2018 22:58:03] "GET /robots.txt HTTP/1.1" 404 18566
Run Code Online (Sandbox Code Playgroud)
这是什么意思?是否有任何建议来处理这一权利。也在生产服务器上。
关于 SEO 主题的官方SvelteKit 文档,其中提到可以使用端点动态创建站点地图。我找不到与 robots.txt 文件相关的其他文档,可用于参考网络爬虫和 SEO 优化的站点地图。
我也查看了其他论坛,但找不到解决方案。我创建了 robots.txt 并将其包含在我的项目的根目录/
中/src
。当我在 上搜索项目文件时,nazar-design.com/robots.txt
收到 404 错误消息。
知道如何解决这个问题吗?
使用Java套接字时,我有一个非常奇怪的问题.这个问题只发生在我正在处理的网址的非常小的子集中.我们打电话给一个例子url abc.com.
编辑:网址lists.wikimedia.org/robots.txt
给我带来了问题.
我可以lists.wikimedia.org
用路径/robots.txt
完美地卷曲/ netcat/telnet .Telnet甚至告诉我IP地址lists.wikimedia.org
(见下文).但是,当我尝试使用Java套接字执行相同操作时,如下所示:
Socket s = new Socket("208.80.154.4", 80); // IP is same as the IP printed by telnet
BufferedWriter writer = new BufferedWriter(s.getOutputStream());
writer.println("HEAD /robots.txt HTTP/1.1");
writer.println("Host: lists.wikimedia.org");
writer.println("Connection: Keep-Alive");
writer.flush();
InputStreamReader r = new InputStreamReader(s.getInputStream());
BufferedReader reader = new BufferedReader(r);
String line;
while ((line = reader.readLine()) != null) {
...
}
Run Code Online (Sandbox Code Playgroud)
readLine无限地阻塞,直到套接字超时......
有没有人知道为什么会这样?相同的代码适用于大多数其他URL,有趣的是,这个bug只发生在一些ROBOTS.TXT请求中......我很困惑,为什么会发生这种情况.
编辑:
有趣的是,使用apache HttpClient库为我提供了正确的结果lists.wikimedia.org/robots.txt
.如果我想通过Socket手动完成,我还需要做些什么吗?
我正在使用Search Engine Optimization (SEO) Toolkit 1.0
显示以下错误的软件测试我的网站:
来自“ htpp://mysite.com/robots.txt”的响应的内容类型为“ text / html”。Web服务器应返回“ text / plain”作为Robots.txt文件的内容类型。
我的robots.txt文件就是这样的:
User-agent: *
Allow: /
Run Code Online (Sandbox Code Playgroud)
使用UTF-8保存,不带BOM编码。
错了吗
默认的无害robots.txt
文件应该是什么?
谢谢 !
在谷歌(https://www.google.com/webmasters/tools/mobile-friendly/)的移动友好网站测试工具上,它表示我的网站没有针对移动设备进行优化,但确实如此.原因是Robots.txt阻止了大量资源.我的网站基于joomla 1.5,但它有一个响应式模板.
这是我的robots.txt文件,但似乎js,css和图像仍然被阻止.
User-agent: *
Allow: /templates/
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /AnexosEmpresas/
Disallow: /Formulario/
Disallow: /estadisticas/
Disallow: /installation-xx/
Disallow: /site2/
Disallow: /TemplateMail/
Disallow: /IMPLEMENTACION/
Disallow: /clicks/
Disallow: /LiveZilla/
Disallow: /*format=feed*
Disallow: /*view=category*
Disallow: /*index.php/*
Disallow: /*option=com_sobi2*
Disallow: /*content/category/*
Disallow: /*start=/*
Disallow: /presentacion_ant/
Disallow: /presentacion/
Disallow: …
Run Code Online (Sandbox Code Playgroud) 我正在尝试在wordpress中编辑robots.txt文件.我可以手动完成.在wordpress中是否有一个选项(没有安装插件)来编辑robots.txt或者为此必须安装一个插件?
如果被认为不适合这个着名的论坛,我将很乐意结束这个问题.
我用了
Disallow: /*?
Run Code Online (Sandbox Code Playgroud)
在robots.txt文件中删除所有可能包含“?”的页面 在网址中。
该语法正确吗,还是我也阻止了其他页面?
robots.txt ×10
seo ×2
wordpress ×2
content-type ×1
css ×1
django ×1
html ×1
java ×1
javascript ×1
joomla1.5 ×1
meta ×1
meta-tags ×1
noindex ×1
php ×1
plaintext ×1
python ×1
robot ×1
sockets ×1
sveltekit ×1
web-crawler ×1