下面是一个代码,当谷歌抓取任何页面时会发送一封电子邮件,导致邮箱发送垃圾邮件.所以可以在服务器上的文本文件中记录最后一次抓取的时间戳,我可以随时使用perl LWP mod读取.文件应该只有这个数据:29,2012年1月GMT等如果机器人多次访问我的网站,它应该覆盖txt文件并记录上次访问时间,请尽可能帮助实施
<?php
if ( strpos( $_SERVER['HTTP_USER_AGENT'], 'Googlebot' ) !== false )
{
// paste your email address here
$my_email = 'your_email_address@email.com';
// notify via email
mail($my_email,'[Notification]Googlebot Visit', 'Googlebot has just visited your website WEBSITE_NAME: '.$_SERVER['REQUEST_URI']);
}
?>
Run Code Online (Sandbox Code Playgroud)
我想我们可以通过检查谷歌机器人是否正在服务器以及它从服务器请求任何网站页面的时间来做到这一点?
当我们向用户发送短信时,我看到来自这个机器人的大量流量。我正在尝试获取有关此机器人的更多详细信息。任何描述它做什么、它有多重要以及我们可以阻止它的指针将不胜感激。完整的用户代理是
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36 Google (+https://developers.google.com/+/web/snippet/)
如何让Google可以访问Flex RIA应用程序的内容,以便Google可以为内容编制索引并显示指向Flex RIA中正确项目的链接.考虑一个在Flex中创建的在线商店,其中所提供的商品应由Google编制索引.然后Google上的链接应该在RIA中打开相应的产品.
我有一个完全用flash开发的网站.现在网站所有者不想转移到更基于文本/ html的网站.所以我打算创建一个替代的基于HTML /文本的网站,googlebot将被重定向到该网站.(通过检查使用者).我的问题是这是谷歌正式允许的吗?
如果没有,那么为什么有许多基于订阅的网站显示与用户相比谷歌的不同数据集?这是允许的吗?
非常感谢你.
如果我注册一个域并将其开发成一个完整的网站,请说.Googlebot从何处以及如何知道新域名已启动?它总是从域名注册表开始吗?
如果它从注册表开始,这是否意味着任何人都可以完全访问注册表的数据库?感谢您的任何见解.
几个月来,我们的IIS/ColdFusion服务器在Google抓取工具扫描期间抛出了404错误.通常很容易跟踪这些,但在这种情况下,谷歌正在尝试扫描我们的CFC文件.这些文件确实存在,但它们不会暴露给Internet - 仅暴露给ColdFusion服务器.尽管如此,谷歌正在我们网站的某个地方看到与CFC的链接,并且正在努力关注它们.
下面是在404的一个中转储我们的CGI结构. baseCFC是CF映射到D:\Domains\[domain]\cfc.baseCFC源代码中的所有引用都在<cfajaxproxy>标记中,或者CreateObject()在Application.CFC中调用(下面的示例).
也许这是一个重要的线索:baseCFC指的是D:\Domains\[domain]\cfc,谷歌正试图达到D:\Domains\[domain]\www\baseCFC,这是我们网站的主目录.显然,Google将其baseCFC视为服务器上的普通(未映射)目录,并希望对其进行扫描.

以下是baseCFC我们的代码中两种类型的引用的示例:
<cfajaxproxy>:
<cfajaxproxy cfc="baseCFC.Misc" jsclassname="ajxMisc">
Run Code Online (Sandbox Code Playgroud)
的CreateObject():
<cfscript>
request.Misc = CreateObject( "component", "baseCFC.Misc" );
</cfscript>
Run Code Online (Sandbox Code Playgroud)
我们如何解决这些与CFC相关的404错误?谢谢!
我一直在寻找 Googlebot 及其兄弟姐妹从“CA”以外的位置抓取的位置,但没有找到专门用于抓取的位置。我找到了 2008 年的数据慢跑地图 ( http://bit.ly/mONhf9 ),我发现 Google 在其数据中心中自称才华横溢,并配有可爱的照片 ( http://www.google.com/关于/数据中心/)。
根据至少三年前的经验,我确实知道旧机器人也将来自 VA……但除此之外……什么也没有。
谁能帮忙解这个谜语吗?我猜谷歌不想让我知道。
在我的Codeigniter应用程序中,我$_SERVER['HTTP_ACCEPT_LANGUAGE']用来确定用户浏览器语言,根据它设置应用程序语言,如下所示:
public function __construct()
{
parent::__construct();
/* set session language if not set. "hu" if browser language "hu", else "en" */
if(!($this->session->userdata("lang")))
{
$browserlang = substr($_SERVER["HTTP_ACCEPT_LANGUAGE"],0,2);
if ($browserlang == "hu")
{
$this->config->set_item("language", "hu");
$this->session->set_userdata("lang", "hu");
$this->lang->load("bh_hu", "hungarian");
}
else
{
$this->config->set_item("language", "en");
$this->session->set_userdata("lang", "en");
$this->lang->load("bh_en", "english");
}
}
else
{
switch ($this->session->userdata("lang"))
{
case "hu": $this->lang->load("bh_hu", "hungarian"); break;
case "en": $this->lang->load("bh_en", "english"); break;
}
}
....
}
Run Code Online (Sandbox Code Playgroud)
一切正常,但由于谷歌抓取工具不发送任何东西HTTP_ACCEPT_LANGUAGE,它会返回一个php错误未定义索引:HTTP_ACCEPT_LANGUAGE抓取我的所有页面时.
这真的很讨厌,因为php错误甚至填满了我的整个谷歌搜索片段.
有没有办法让谷歌机器人忽略这个HTTP_ACCEPT_LANGUAGE动作?
提前致谢!
我正在尝试将一系列ips(Googlebots)列入Ubuntu 12.04服务器上的modsecurity白名单.例如,这是我需要列入白名单的范围:
66.249.64.0/19
我尝试了其他人建议的几种方法,但只有单个ips被阻止,当我尝试作为范围时,白名单被忽略.我已将规则添加到文件底部新部分的/usr/share/modsecurity-crs/modsecurity_crs_10_config.conf中.
这有效:
SecRule REMOTE_ADDR"^ 66.249.65.3"阶段:1,nolog,allow,ctl:ruleEngine = Off
这些不起作用:
SecRule REMOTE_ADDR"^ 66.249.64.0/19"阶段:1,nolog,allow,ctl:ruleEngine = off
SecRule REMOTE_ADDR"@ipMatch 66.249.64.0/19""阶段:1,nolog,允许"
SecRule REMOTE_ADDR"^ 66.249.64\0/19 $"阶段:1,nolog,allow,ctl:ruleEngine = Off
我已经看到了几种不同的语法建议,但似乎没有一种方法适用于我的安装.mod-security的版本是否重要?有什么建议吗?TIA
我有一个 SPA,里面有很多图像。我想将这些图像公开给搜索引擎。所以我想创建只有机器人才能看到的“特殊”页面。这些页面将包含有关图像的元数据。
是否可以让 googlebot 抓取一个页面,但将其索引为另一页面?
googlebot ×10
bots ×2
php ×2
seo ×2
web-crawler ×2
apache-flex ×1
apache2 ×1
cfc ×1
coldfusion ×1
dns ×1
gis ×1
iis ×1
indexing ×1
mod-security ×1
ria ×1
ubuntu ×1