标签: robots.txt

WordPress 删除机器人元标记 noindex

WordPress 网站元机器人标签遇到了一个奇怪的问题。所有页面都有以下元标记，我们似乎无法删除它

<meta name="robots" content="noindex,follow"/>

Run Code Online (Sandbox Code Playgroud)

我们在“设置”>“阅读”>“搜索引擎可见性”中取消选中“阻止搜索引擎对此网站建立索引”，但它没有任何作用。

我们正在使用 Yoast SEO 插件，但即使禁用该插件，该插件 <meta name="robots" content="noindex,follow"/>仍然存在。事实上，我们已经尝试禁用所有插件以检查是否没有任何干扰。

我们的文件设置Robots.txt如下：

User-agent: *
Disallow: 
Sitemap: http://example.co.uk/sitemap.xml

Run Code Online (Sandbox Code Playgroud)

我不确定是否robots.txt优先于机器人元标记，并且似乎没有明确的答案，据我所知，最严格的一个将优先，即在我们的情况下为元标记。

这主要是给我们的 Google 列表带来问题，其中出现警告“由于此网站的原因，此结果的说明不可用robots.txt”，而不是我们的网站说明。

如果情况更糟，我们可以编辑 wp_no_robots 函数，wp-includes/general-templates.php但更愿意在不编辑 wp 核心文件的情况下解决这个问题。

php wordpress seo robots.txt meta-tags

Chr*_*aig

2023 11-06

3
推荐指数

1
解决办法

3万
查看次数

Robot.txt 无索引

我有 2 个网站。第一个是“test-www.xxxxxx.net”，另一个是“www.xxxxxx.net”。我想制作一个动态无索引元标记。Google 机器人可以为我的实时网站编制索引，但我不希望将其用于我的测试网站。通常我可以添加一个属性并使其在 _Layout.cshtml 中动态化，如下所示。

@if (!Helper.IsLiveSite())
    {
        <meta name="robots" content="noindex">
    }

Run Code Online (Sandbox Code Playgroud)

有没有办法可以将其写入 robots.txt 文件？有些文章中写道“我强烈建议您尽可能使用Noindex。 ”

所以请帮忙！我怎样才能在robot.txt中做到这一点？我不知道下面的文件是否会产生错误。

User-agent: *
Disallow: /styles/
Sitemap: http://xxxxxx/sitemap/sitemap.xml
Noindex: test-www.xxxxxxx.net/*
Noindex: http://test-www.xxxxxxx.net/*
Noindex: https://test-www.xxxxxxx.net/*

Run Code Online (Sandbox Code Playgroud)

谢谢。

robots.txt noindex

dog*_*ker

lucky-day

3
推荐指数

1
解决办法

3968
查看次数

多个机器人元标签

我最近继承了一个代码库并发现了这个宝石：

{% if PAGE_EXTRAS.hide_from_sitemap %}
    <META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
    <META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW">
    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
{% endif %}

Run Code Online (Sandbox Code Playgroud)

我不知道它想做什么。您是否有理由在这样的网站中放置多个明显冲突的机器人标签？或者它真的像我无知的眼睛看起来那么疯狂吗？

meta robots.txt

Win*_*ute

lucky-day

3
推荐指数

1
解决办法

3297
查看次数

django 中的 robots.txt 警告是什么并建议处理这个问题？

我在本地主机（开发机器）上运行 Django，我在调试控制台中遇到了这个：

Not Found: /robots.txt
2018-03-20 22:58:03,173 WARNING Not Found: /robots.txt
[20/Mar/2018 22:58:03] "GET /robots.txt HTTP/1.1" 404 18566

Run Code Online (Sandbox Code Playgroud)

这是什么意思？是否有任何建议来处理这一权利。也在生产服务器上。

python django robots.txt web-crawler

Axi*_*xil

lucky-day

3
推荐指数

1
解决办法

3363
查看次数

将 robots.txt 文件添加到 SvelteKit 项目的最佳方法是什么？

关于 SEO 主题的官方SvelteKit 文档，其中提到可以使用端点动态创建站点地图。我找不到与 robots.txt 文件相关的其他文档，可用于参考网络爬虫和 SEO 优化的站点地图。

我也查看了其他论坛，但找不到解决方案。我创建了 robots.txt 并将其包含在我的项目的根目录/中/src。当我在上搜索项目文件时，nazar-design.com/robots.txt收到 404 错误消息。

知道如何解决这个问题吗？

robots.txt sveltekit

thi*_*hib

2022 05-11

3
推荐指数

1
解决办法

4288
查看次数

Java套接字无限地读取阻塞

使用Java套接字时,我有一个非常奇怪的问题.这个问题只发生在我正在处理的网址的非常小的子集中.我们打电话给一个例子url abc.com.

编辑:网址lists.wikimedia.org/robots.txt给我带来了问题.

我可以lists.wikimedia.org用路径/robots.txt完美地卷曲/ netcat/telnet .Telnet甚至告诉我IP地址lists.wikimedia.org(见下文).但是,当我尝试使用Java套接字执行相同操作时,如下所示:

Socket s = new Socket("208.80.154.4", 80);  // IP is same as the IP printed by telnet
BufferedWriter writer = new BufferedWriter(s.getOutputStream());
writer.println("HEAD /robots.txt HTTP/1.1");
writer.println("Host: lists.wikimedia.org");
writer.println("Connection: Keep-Alive");
writer.flush();

InputStreamReader r = new InputStreamReader(s.getInputStream());
BufferedReader reader = new BufferedReader(r);

String line;
while ((line = reader.readLine()) != null) {
    ...
}

Run Code Online (Sandbox Code Playgroud)

readLine无限地阻塞,直到套接字超时......

有没有人知道为什么会这样？相同的代码适用于大多数其他URL,有趣的是,这个bug只发生在一些ROBOTS.TXT请求中......我很困惑,为什么会发生这种情况.

编辑:

有趣的是,使用apache HttpClient库为我提供了正确的结果lists.wikimedia.org/robots.txt.如果我想通过Socket手动完成,我还需要做些什么吗？

java sockets robots.txt

Jin*_*Jin

2013 04-18

2
推荐指数

1
解决办法

1643
查看次数

robots.txt错误：内容类型应为文本/纯文本

我正在使用Search Engine Optimization (SEO) Toolkit 1.0显示以下错误的软件测试我的网站：

来自“ htpp：//mysite.com/robots.txt”的响应的内容类型为“ text / html”。Web服务器应返回“ text / plain”作为Robots.txt文件的内容类型。

我的robots.txt文件就是这样的：

User-agent: * 
Allow: /

Run Code Online (Sandbox Code Playgroud)

使用UTF-8保存，不带BOM编码。

错了吗

默认的无害robots.txt文件应该是什么？

谢谢！

seo content-type robots.txt robot plaintext

jef*_*eff

2015 01-23

2
推荐指数

1
解决办法

5051
查看次数

如果我不允许使用父文件夹,如何在robots.txt中允许js和css文件和图像

在谷歌(https://www.google.com/webmasters/tools/mobile-friendly/)的移动友好网站测试工具上,它表示我的网站没有针对移动设备进行优化,但确实如此.原因是Robots.txt阻止了大量资源.我的网站基于joomla 1.5,但它有一个响应式模板.

这是我的robots.txt文件,但似乎js,css和图像仍然被阻止.

User-agent: *

Allow: /templates/
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png

Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /AnexosEmpresas/
Disallow: /Formulario/
Disallow: /estadisticas/
Disallow: /installation-xx/
Disallow: /site2/
Disallow: /TemplateMail/
Disallow: /IMPLEMENTACION/
Disallow: /clicks/
Disallow: /LiveZilla/
Disallow: /*format=feed*
Disallow: /*view=category*
Disallow: /*index.php/*
Disallow: /*option=com_sobi2*
Disallow: /*content/category/*
Disallow: /*start=/*
Disallow: /presentacion_ant/
Disallow: /presentacion/
Disallow: …

Run Code Online (Sandbox Code Playgroud)

html javascript css robots.txt joomla1.5

use*_*397

lucky-day

2
推荐指数

1
解决办法

5334
查看次数