如何确保Web爬网程序适用于AWS S3上托管的站点并使用AJAX

tom*_*lic 6 web-crawler amazon-s3 amazon-web-services google-crawlers

Google网站管理员指南解释说,网络服务器应该处理包含_escaped_fragment_的网址请求(抓取工具将www.example.com/ajax.html#!mystate修改为www.example.com/ajax.html?_escaped_fragment_=mystate)

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=174992

我的网站位于AWS S3上,我没有处理此类请求的Web服务器.如何确保抓取工具获取Feed并使我的网站获得索引?

小智 0

S3 托管站点是静态 html。没有 POST 处理,没有 PHP 渲染,什么都没有...那么,为什么你关心 Google 索引 AJAX 站点呢?

对于静态网站,只需将格式正确的 robots.txt 和 sitemap.xml 文件上传到您的根路径即可。