阻止来自搜索引擎的网站 - DuckDuckGo

Vim*_*ath 4 robots.txt robot web-crawler duckduckgo

我有一个开发网站https://text-domain.com.(不是真实的网站)当我访问https://duckduckgo.com并搜索text-domain.com时,它会返回结果.

到目前为止我尝试了什么:

robots.txt使用以下代码创建文件(放在我的根目录中,即在text-domain.com/robots.txt中):

User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)

然后在我的模板文件中添加了这样的元标记:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Run Code Online (Sandbox Code Playgroud)

即便在这样做之后,我搜索了DuckDuckGo并得出了相同的结果.欢迎大家提出意见.

PS

嗨,等了几天后有2个发现:

  • 仍然,搜索结果被提取.
  • 但是我看到一条消息说:"我们想在这里向您展示一个描述,但该网站不允许我们."

    是否有可能完全阻止在结果中显示?

mli*_*ner 11

当涉及到他们的结果时,DuckDuckGo是一个奇怪的鸭子.我已经在很多搜索引擎上对这个主题进行过相当多的研究,并且在DDG上有一些来回的电子邮件.

这是交易.他们从其他搜索引擎获取内容,如此处所列.据我所知,他们的搜索结果并未指出哪个搜索引擎是其来源,因此要删除您的内容,您需要基本上往所有来源上游并从那里删除您的内容.如果这听起来很麻烦,不要担心 - 无论如何你都想这样做,对吗?

DDG也有自己的爬虫,恰当地称为DuckDuckBot.它并没有兑现的noindexHTML标签,也不是HTTP标头(它的荣誉robots.txt),但是这似乎并不重要,因为没有新的结果由DuckDuckBot创建.据我所知,这在任何地方都没有记载,但我与他们的工作人员交谈,我在下面引述:

DDG说(2014-06-06):

我们从多个来源获得结果,而我们自己的爬虫不会是您[问题]的原因.我们的抓取工具只执行非常具体的任务,例如查看(而不是实际抓取)托管域名,垃圾邮件站点等.

如果[你的网站]的结果出现在DuckDuckGo上并且不应该出现,那么它们很可能来自我们的一个上游来源.如果在那里删除,那么他们将停止在我们的结果中显示.

我回答:

好的,所以你的索引中没有任何内容可以通过你的抓取工具放入,这些抓取工具确实不支持noindexHTML或HTTP代码?

他们确认:

是的!对不起,如果您发现任何异常情况,请随时告诉我们.

那么唯一剩下的问题是如何从上游提供商中删除您的内容.为此,我指向您的博客,因为它与提供商不同.它的关键是:

  1. 使用noindexHTML元标记和x-robotsHTTP标记(用于图像等)告诉搜索引擎不要在其结果中包含某些内容;
  2. 在您的sitemap.xml文件中列出您的整个网站,以便所有搜索引擎都可以在那里找到它.
  3. 使用robots.txt以阻止搜索引擎不支持noindexx-robots标签.

并获得奖励积分:

  1. 设置sitemaps.xml文件以便noindex设置(因此不会显示在搜索结果中).
  2. 同样为您的robots.txt文件.

这是一个复杂的世界.


uno*_*nor 5

DuckDuckGo 应该尊重您的robots.txt. 他们的机器人DuckDuckBot记录在https://duckduckgo.com/duckduckbot

\n\n

但请注意:DuckDuckGo 机器人本身不会抓取所有内容(因为 DuckDuckGo 从其他来源获取结果),因此如果您不阻止这些其他来源的机器人,您的页面可能仍会显示(像必应)。有关更多详细信息,请参阅mlissner\xe2\x80\x99s 答案

\n\n

对于robots.txt,有两件事需要考虑:

\n\n
    \n
  • 您的变化需要时间才能robots.txt被认识到。您必须等到相关机器人再次访问您的网站。
  • \n
  • 即使您的网址在 中被阻止robots.txt,搜索引擎仍可能在其搜索结果中列出您的网址(没有抓取标题和描述等元数据)。
  • \n
\n\n
\n\n

使用robots-meta元素noindex甚至会阻止在 Google 等搜索引擎中列出 URL,但 DDG似乎不支持它。

\n\n

请注意,您在示例中使用了错误的引号。它应该是

\n\n
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">\n
Run Code Online (Sandbox Code Playgroud)\n\n

代替

\n\n
<META NAME=\xe2\x80\x9dROBOTS\xe2\x80\x9d CONTENT=\xe2\x80\x9dNOINDEX, NOFOLLOW\xe2\x80\x9d>\n
Run Code Online (Sandbox Code Playgroud)\n