各种网站分析方式的优缺点是什么？

Question

我想写一些代码来查看网站及其资产,并创建一些统计数据和报告.资产将包括图像.我希望能够跟踪链接,或者至少尝试识别页面上的菜单.我还想根据类名等猜测CMS创建网站的内容.

我将假设该网站是合理的静态,或由CMS驱动,但不是像RIA.

关于我如何进步的想法.

1)将站点加载到iFrame中.这很好,因为我可以用jQuery解析它.或者我可以吗？好像我受到跨站点脚本规则的阻碍.我已经看到了解决这些问题的建议,但我认为浏览器会继续限制这些问题.书签有用吗？

2)Firefox附加组件.这可以让我解决跨站点脚本问题,对吧？似乎可行,因为Firefox的调试工具(以及GreaseMonkey)可以让你做各种各样的事情.

3)抓住服务器端的站点.使用服务器上的库进行解析.

4)YQL.这不是为解析网站而构建的吗？

Answer 1

我的建议是:

a)选择脚本语言.我建议使用Perl或Python:curl + bash但是没有异常处理.

b)使用python或perl库通过脚本加载主页.试试Perl WWW :: Mechanize模块.

Python有很多内置模块,请查看www.feedparser.org

c)检查服务器头(通过HTTP HEAD命令)以查找应用程序服务器名称.如果幸运的话,您还会找到CMS名称(ID WordPress等).

d)使用Google XML API询问类似"link:sitedomain.com"的内容,找出指向该网站的链接:再次,您将在google主页上找到Python的代码示例.向Google提出域名排名也很有帮助.

e)您可以在SQLite数据库中收集数据,然后在Excel中进行后处理.