在网站的最初几天,我在生成一些链接时犯了一个错误; 跟随它们输出数据库错误.
谷歌机器人已尝试关注这些链接,现在它们在网站管理员工具中显示为抓取错误.虽然我已经纠正了错误,谷歌仍然试图抓取它们.
如何告诉Google这些链接不再存在,并且它们导致无处可去?我不能做一个301重定向原因,可以说链接是有效的,可以索引它们.
我正在开发一个可以使用两种语言(英语和法语)的网站.我创建了一个脚本,用$ _SERVER ['HTTP_ACCEPT_LANGUAGE']检测浏览器语言,并根据结果加载一个xml文件,其中写入了所有文本.我想知道这是否是搜索引擎优化的问题,因为我猜谷歌机器人将获得英文版但不是法国版?谢谢
由于谷歌正在抓取我们的静态内容(存储在s3上),我们在根目录(存储桶)中创建了一个robots.txt ..如下
User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)
现在,因为我们想要从谷歌搜索中删除现有内容..我们在谷歌网站管理员a/c中添加了桶..并要求删除目录
现在问题是谷歌不会识别或读取robots.txt(这需要将来阻止谷歌块)..我们在网站管理员工具中收到此消息
此网站不位于域的顶级.robots.txt文件仅在位于最高级别目录中时有效,并且适用于域中的所有目录.适用于您网站的robots.txt文件(如果存在)位于http://s3.amazonaws.com/robots.txt.此页面提供有关该文件的信息.
我有1到1700页每页包含20个主题.我从谷歌网站管理员博客阅读关于SEO友好分页的教程使用rel ='next'和rel ='prev'属性.
但我的分页网址应该如何更好的搜索引擎优化.
FOR EXAMPLE:
// im Using Zend Framework
//Default URL for threads is
http://domain.com/Movies/Action/page/3/
// I changed this URL for better SEO to
http://domain.com/ActionMovies/pagenumber
Run Code Online (Sandbox Code Playgroud)
请建议我使用谷歌BOT更友好的分页URL的结构应该是什么.
我应该在URL中使用URI查询符号(?,&),像这样
http://domain.com/movies=action&page=3
http://domain.com/movies=action
http://domain.com/movies=drama
// OR
http://domain.com/ActionMovies/3/
// OR
http://domain.com/Movies/Action/page/3
Run Code Online (Sandbox Code Playgroud) 有谁知道Googlebot是用哪种编程语言编写的?
或者,更一般地说,哪种语言是高效的网络爬虫?
我见过许多Java语言,但在我看来,开发网络爬虫并不是最合适的语言,因为它会产生太多的开销(尝试使用Heritrix网络爬虫,而且非常繁重).
我在这里和超级用户之间发帖.如果您觉得这不属于此,请原谅.
我正在观察此处描述的行为- Googlebot正在我的网站上请求随机网址,例如aecgeqfx.html或sutwjemebk.html.我确信我没有从我网站上的任何地方链接这些网址.
我怀疑这可能是谷歌探讨我们如何处理不存在的内容 - 引用链接问题的答案:
[google is requesting random urls to] see if your site correctly
handles non-existent files (by returning a 404 response header)
Run Code Online (Sandbox Code Playgroud)
我们有一个针对不存在的内容的自定义页面 - 一个风格的页面,上面写着"内容未找到,如果您认为自己错误,请与我们联系",并提供一些内部链接,自然地提供了一个200 OK.URL直接提供(不重定向到单个URL).
我担心这可能会歧视谷歌的网站 - 他们可能不会将用户友好页面解释为,404 - not found并且可能认为我们正试图伪造某些内容并提供重复内容.
我应该如何确保谷歌不会认为该网站是虚假的,同时向用户提供用户友好的消息,以防他们偶然点击死链接?
Google 制作AJAX应用程序的完整规范Crawlable建议使用HTMLUnit ...请参阅如何创建HTML快照?第3点.
HtmlUnit是一个仅限Java的无头浏览器模拟器; 不幸的是,jRuby不是Heroku的选项.所以HtmlUnit被排除了(据我所知).
如果你感兴趣我还有另外一个问题,关于HtmlUnit作为托管在Google App Engine上的服务...... 让AJAX应用程序可以抓取吗?如何在Google App Engine上构建简单的Web服务来生成HTML快照?......仍在等待一个经过验证的例子/答案.
我正在建立一个网站,允许卖家:
我现在需要做的是确保以某种方式确保只记录了指向卖方站点链接的实际人类用户。如果它是爬网的机器人,那我就不应该向卖方收费。
我有办法告诉机器人不要遵循某个链接吗?我认为这nofollow并不是要阻止对内容的访问。
就在一个小时前,我启动了tailingapache日志文件(访问日志),从那时起,我注意到这个奇怪的用户代理(无法在Google的官方文档中找到它)。
我对此感到怀疑,因为我在 Google 网站上找不到有关此用户代理的任何内容,
("Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html))
Run Code Online (Sandbox Code Playgroud)
它一整天、每分钟都在抓取我们网站的登录页面。
这是日志片段:
72.14.199.55 - - [07/Aug/2013:16:06:28 +0000] "GET / HTTP/1.1" 302 639 "-" "Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html)"
72.14.199.55 - - [07/Aug/2013:16:06:28 +0000] "GET /accounts/login/ HTTP/1.1" 200 3780 "-" "Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html)"
Run Code Online (Sandbox Code Playgroud)
而且一直是同一个IP。而现在仍然如此,
这种爬行模式常见吗?
如果我有一个带有元标记的页面("dontFollowMe.html"):
< meta name = "robots" content = "noindex, nofollow" / >
Run Code Online (Sandbox Code Playgroud)
......我链接到那个页面......
我是否需要将nofollow rel属性包含在a元素中?:
<a href="dontFollowMe.html" rel="nofollow">sign in</a>
Run Code Online (Sandbox Code Playgroud)
谢谢
我已经完成了大量的ASP.NET和PHP开发,但我不太熟悉如何在CF中跟踪这类事情.我天真的第一个攻击角度是在任何源代码中搜索对Google的任何引用.没运气.
我在IIS7上运行该站点.谷歌,必应和雅虎在我的网站上显然都"看不见".
更新:我在Googlebot上运行Fetch并获得以下信息:
HTTP/1.1 200 OK
Transfer-Encoding: chunked
Content-Type: text/html; charset=UTF-8
Server: Microsoft-IIS/7.0
Set-Cookie: CFID=1638251;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
Set-Cookie: CFTOKEN=35688222;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
Set-Cookie: LANGUAGEID=1;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
Set-Cookie: CFGLOBALS=urltoken%3DCFID%23%3D1638251%26CFTOKEN%23%3D35688222%23lastvisit%3D%7Bts%20%272010%2D04%2D22%2008%3A51%3A41%27%7D%23timecreated%3D%7Bts%20%272010%2D04%2D22%2008%3A51%3A41%27%7D%23hitcount%3D2%23cftoken%3D35688222%23cfid%3D1638251%23;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
X-Powered-By: ASP.NET
Date: Thu, 22 Apr 2010 15:51:40 GMT
Run Code Online (Sandbox Code Playgroud) 我的评分系统允许匿名用户添加评分,但Google的抓取工具正在对评分进行评级.
如何确保Googlebot不会关注该链接?
任何人都知道为什么会出现这种情况?尝试使用此方法根据用户代理重定向用户.当用户代理是搜索机器人时,会出现此警告.Windows XP MSIE 8用户代理也被错误地重定向.
"警告:preg_match()[function.preg-match]:第36行/.../getos.php中的未知修饰符'c'"
function getOS($userAgent) {
$oses = array (
'iPhone' => '(iPhone)',
'iPad' => 'iPad',
'Android' => 'Android',
'Windows 3.11' => 'Win16',
'Windows 95' => '(Windows 95)|(Win95)|(Windows_95)', // Use regular expressions as value to identify operating system
'Windows 98' => '(Windows 98)|(Win98)',
'Windows 2000' => '(Windows NT 5.0)|(Windows 2000)',
'Windows XP' => '(Windows NT 5.1)|(Windows XP)',
'Windows 2003' => '(Windows NT 5.2)',
'Windows Vista' => '(Windows NT 6.0)|(Windows Vista)',
'Windows 7' => '(Windows NT 6.1)|(Windows 7)',
'Windows …Run Code Online (Sandbox Code Playgroud) php internet-explorer windows-xp googlebot internet-explorer-8
googlebot ×13
seo ×7
web-crawler ×5
html ×2
php ×2
amazon-s3 ×1
bots ×1
coldfusion ×1
heroku ×1
hosting ×1
meta ×1
nofollow ×1
robots.txt ×1
watir ×1
webserver ×1
windows-xp ×1