有没有办法让机器人忽略某些文字?

Ale*_*rMP 26 html seo googlebot

我有我的博客(如果你愿意,可以从我的个人资料中看到它),它是新鲜的,以及谷歌机器人解析结果.

结果让我感到震惊.显然,我网站上最常见的2个单词是"rss"和"feed",因为我使用文本链接,如"评论RSS","发布Feed"等.这两个单词将出现在每个帖子中,而其他单词会更罕见.

有没有办法让这些链接从Google的解析中消失?我不希望技术链接被编入索引.我只希望内容,标题,描述被编入索引.我正在寻找除了用图像替换这个文本以外的东西.

从2007年开始,我在Google上发现了一些旧的讨论(我认为在3年内很多事情都可能发生变化,希望这也是如此)

这个问题不是关于robots.txt以及如何让Google忽略网页.它是关于让它忽略页面的一小部分,或者以一种人类可以看到并且机器人看不见的方式转换部件.

Orm*_*moz 16

有一种简单的方法可以告诉谷歌不要索引文档的部分内容,即使用googleongoogleoff:

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index-->
Run Code Online (Sandbox Code Playgroud)

在此示例中,Google不会将第二段编入索引.注意" index"参数,可以设置为以下任何一项:

  • index- " googleoff: index"所包围的内容不会被Google编入索引

    anchor- " googleoff: anchor"区域内任何链接的锚文本都不会与目标页面关联

    snippet- " googleoff: snippet" 包围的内容不会用于为搜索结果创建摘要

    all- 被" googleoff: all" 包围的内容全部用

资源

  • 只有Google Search Appliance支持`googleon`,`googleoff`tags(当您托管自己的搜索结果时).因此,这不会避免Google bot抓取该文本. (10认同)
  • 这适用于GSA而非GoogleBot.来自wikibedia:http://en.wikipedia.org/wiki/Noindex Google的主要索引蜘蛛Googlebot并不知道会识别这些技术. (8认同)

Chr*_*lay 8

我在美国数以千计的学校名称排名前三的谷歌网站上工作,我们做了很多工作来保护我们的搜索引擎优化.你可以做三件事(这可能是浪费时间,继续阅读):

  • 将您想要淡化的内容移动到HTML的底部并使用CSS和/或将其放在您希望读者看到的位置.这不会将其隐藏在抓取工具中,但是它们会降低它的价值.
  • 用图像替换这些链接(你说你不想这样做,但不解释为什么不这样做)
  • 为抓取工具提供不同的页面,剥离这些链接.只要内容与浏览器看到的基本相同,就没有什么黑帽子了.如果您提供的页面与用户看到的页面明显不同,搜索引擎会告诉您,但如果您从页面抓取工具索引的版本中删除RSS链接,则不会有问题.

也就是说,爬虫是聪明的,你不是唯一一个充满永久链接和rss链接的网站.他们关心上下文,并在标题和正文中查找术语和短语.他们知道如何确定您的博客是关于技术而不是RSS.我非常怀疑这些链接对你的SEO有任何负面影响.你实际上试图解决什么问题?

如果你想建立搜索引擎优化,找出你给读者提供的价值,并写下来.说出有趣的事情会引导他人链接到您的博客,抓取工具会理解您是人们重视的信息来源.更多地考虑读者看到和理解的内容,而不是您认为爬虫看到的内容.


Zul*_*ulu 6

Google 会忽略具有data-nosnippet以下内容的HTML 标签:

<p>
   This text can be included in a snippet
   <span data-nosnippet>and this part would not be shown</span>.
</p>
Run Code Online (Sandbox Code Playgroud)

来源:Google 理解的特殊标签 - 内联指令

  • `data-nosnippet` 不会阻止索引,只会阻止文本作为片段的一部分显示在搜索结果中。 (2认同)

Dan*_*ght 5

首先思考这个问题。如果 Google 认为“RSS”是主要关键字,则可能表明您的其余内容有点肤浅并且需要扩展。也许这应该是您关注的焦点。如果您的其余内容很丰富,我不会担心这个问题,因为搜索引擎应该从标题和标题中知道页面的内容。只需确保 RSS 等不在标题、粗体或强标签中。

其次,正如您正确提到的,您可能不希望使用图像,因为它们无法在没有替代文本的情况下对屏幕阅读器进行评估,如果它们有替代文本或支持文本,那么您可以重新添加关键字。但是 aria live 可能会帮助您绕过这个问题,但我不是可访问性方面的专家。

选项

  • 使用 JavaScript 编写那一点内容(可能在加载后将其放入 ajax)。像 Google 这样的搜索引擎可以执行 JavaScript,但我猜它不会非常重视任何 JS 编写的内容。
  • 重新表述内容或删除重复内容,一个突出的 RSS 提要链接可能比散布在页面周围的几个较小的链接要好。
  • 使用带有伪 :before 或 :after 的 css 内容属性来添加您的内容。我不确定机器人是否会在 CSS 的内容属性中索引单词并知道与每个页面相关的内容值,但这似乎不太可能。将 RSS 之类的词放在 CSS 中基本上说它是一种样式而不是 HTML 的东西,因此即使引擎对其进行索引,它们也不会为其增加太多/任何价值。例如,HTML 和 CSS 可以是:

    <a href="/my-feed.rss" class="add-text"></a>
    
    .add-text:after { content:'View my RSS feed'; }
    
    Run Code Online (Sandbox Code Playgroud)

请注意,以上在旧版本的 IE 中不起作用,因此如果您关心它,您可能需要一些 IE 版本注释。