当googlebot抓取网页时,会有会话吗?例如,我在会话中存储了一些变量,并在我的网站页面中使用它们.当googlebot抓取这些页面时,我还会有会话变量吗?我global.asax在会话开始时在会话中存储了一些变量.我对谷歌机器人有任何问题吗?
我在多个域上有一些单页Web应用程序,它们严重依赖于javascript/ajax来获取和显示内容.基于日志和搜索结果,我可以告诉googlebot在某些域上运行javascript但在其他域上运行javascript.在某些情况下,它会将只有js可用的所有内容编入索引,而它甚至根本不会运行js.
任何人都可以告诉我googlebot如何决定运行什么js以及我是否可以通过任何方式让它在我的其他域上运行js?
PS:我知道通常我应该使用像服务器端渲染这样的东西,但我完全不依赖于搜索结果和排名,所以它并不值得努力.我只是很好奇googlebot是如何判断它是否应该运行js,如果有什么容易的话我可以做些什么来改变我的其他域名.
I'm having an error with my website where it's not showing on Google any more. It had been well indexed last week, but now has no pages indexed. No major changes were made for this, but when I use the Googlebot Render in Fetch as Google, it shows just the letter "q". We have tried checking the source, but there is no "q" at line 13.
This is what shows in the "Fetching section":
HTTP/1.1 200 OK
Date: Thu, 05 …
可能重复问题在角度SPA中设置404页面的最佳方法?但我没有找到可靠的答案.
我很想知道是否有办法告诉googlebot关于404页面?有一个标签用于此目的称为prerender-status-code但是我没有找到Google Seo Team的任何官方文章来确认他们尊重这个元标记.
这足以遵循这里指定的最佳实践吗?
或者我应该做些什么?(也许与Google网站管理员工具有关?)
我对一些众所周知的SPA进行了研究,我注意到SoundCloud在其404页面上添加了一个nofollow标签,如下所示:
<meta content="noindex, nofollow" name="robots">
Run Code Online (Sandbox Code Playgroud)
googlebot是否尊重后来由js添加的元标记?
我在一个中间的专用服务器上运行一个内容很多,但流量很小的网站.
有时,Googlebot会踩踏我们,导致Apache最大化其内存,并导致服务器崩溃.
我怎么能避免这个?
是否有可能对Google的指令进行微调,以至于它会忽略页面的一部分,但仍会为其余部分编制索引?
我们遇到了几个不同的问题,这将有助于此,例如:
我知道上述两种方法都可以通过其他技术解决(例如使用JavaScript编写内容),但我想知道是否有人知道Google是否已经提供了更清洁的选项?
我一直在做一些挖掘,并遇到了提及googleon和googleoff标签,但这些似乎是Google Search Appliance独有的.
有谁知道Googlebot会遵守哪类标签?
编辑:只是为了澄清,我不想走下隐藏/向Google提供不同内容的危险路线,这就是为什么我要看看是否有"合法"的方式来实现我想要的在这里做
我似乎找不到任何关于谷歌如何确定你是否隐藏你的内容的信息.从技术角度来看,您认为他们是如何决定这一点的?他们是否发送googlebot以外的东西并将其与googlebot结果进行比较?他们是否有一个人类队伍比较?或者他们可以以某种方式告诉您已经检查了用户代理并执行了不同的代码路径,因为您在名称中看到了"googlebot"?
这与关于seo的合法网址隐藏的这个问题有关.如果文本内容完全相同,但渲染是不同的(1995年风格的HTML与ajax与闪存相比),真的有隐藏真的问题吗?
谢谢你穿上这个.
谷歌刚刚完成(我现在看到我面前的页面刷新)JavaScript索引.这很酷,因为我不再需要我的所有工具.谷歌现在将执行JavaScript - 解决了SEO JavaScript问题.到目前为止 - 太棒了.
但是,我有一堆我为旧!#片段方案创建的页面.这些页面已被编入索引,我打算继续为旧的(IE7-)浏览器提供服务.较新的SPA页面包含更多图形和更少的文本信息.
_escaped_fragment_=使用JavaScript 以旧方式或新方式索引网址?鉴于这种变化,我需要对现有应用程序进行哪些调整?
我遇到了让Googlebot正确呈现我的网页的问题.
它正在渲染页面和我页面的一个"行"(只是页面的顶部背景图片),然后无法呈现除此之外的任何内容,甚至页脚都没有丢失大约3/4的页面.
我的网站是www.runparis.fr,附加了渲染提取的屏幕截图.
其他可能相关的信息包括:
我的问题是:
感谢任何人提供的任何帮助或建议! Googlebot渲染2
编辑:我已经完成了另一个Google抓取并渲染测试页面,发现Googlebot在我的Wordpress安装中的页面构建器中渲染了我已设置为"全高"的任何背景图像后,将停止渲染; 也就是说,任何设置为占据浏览器窗口全高的图像都会导致渲染.
因此,它将呈现所有内容,直到它到达此图像,呈现,然后停止.
如前所述,我的页面并不华丽; 它只是简单的背景图像和文字.令我惊讶的是,Googlebot无法呈现任何浏览器可以完美呈现的内容,特别是考虑到页面的简单性!
所以,我的问题是:
外部来源提供的一些新信息:
"validator.w3.org/nu/?doc=http%3A%2F%2Frunparis.fr%2F"
"jigsaw.w3.org/css-validator/validator?uri=http%3A%2F%2Frunparis.fr%2F&profile=css3&usermedium=all&warning=1&vextwarning=&lang=en"
各种错误和警告可能解释了为什么渲染在某些工具(例如Google Fetch和render)中受到阻碍.浏览器比所有这些验证和渲染工具更宽容.我猜测在Google的渲染工具中,设置背景图像和前景图像以及文本内容的css规则以错误的顺序应用,因此背景材料最终会出现在前景之上.
这些新信息是否有助于任何人理解为什么Googlebot难以呈现该页面?
我在根目录中有以下robots.txt的网站:
User-agent: *
Disabled: /
User-agent: Googlebot
Disabled: /
User-agent: Googlebot-Image
Disallow: /
Run Code Online (Sandbox Code Playgroud)
Googlebots会整天扫描此网站中的网页.我的文件或Google有问题吗?
googlebot ×10
seo ×5
javascript ×3
ajax ×1
angularjs ×1
asp.net ×1
cloaking ×1
execution ×1
indexing ×1
magento ×1
performance ×1
robot ×1
robots.txt ×1
session ×1
web-crawler ×1