Nos*_*dna 3 html iframe firefox add-on yql
我想写一些代码来查看网站及其资产,并创建一些统计数据和报告.资产将包括图像.我希望能够跟踪链接,或者至少尝试识别页面上的菜单.我还想根据类名等猜测CMS创建网站的内容.
我将假设该网站是合理的静态,或由CMS驱动,但不是像RIA.
关于我如何进步的想法.
1)将站点加载到iFrame中.这很好,因为我可以用jQuery解析它.或者我可以吗?好像我受到跨站点脚本规则的阻碍.我已经看到了解决这些问题的建议,但我认为浏览器会继续限制这些问题.书签有用吗?
2)Firefox附加组件.这可以让我解决跨站点脚本问题,对吧?似乎可行,因为Firefox的调试工具(以及GreaseMonkey)可以让你做各种各样的事情.
3)抓住服务器端的站点.使用服务器上的库进行解析.
4)YQL.这不是为解析网站而构建的吗?
我的建议是:
a)选择脚本语言.我建议使用Perl或Python:curl + bash但是没有异常处理.
b)使用python或perl库通过脚本加载主页.试试Perl WWW :: Mechanize模块.
Python有很多内置模块,请查看www.feedparser.org
c)检查服务器头(通过HTTP HEAD命令)以查找应用程序服务器名称.如果幸运的话,您还会找到CMS名称(ID WordPress等).
d)使用Google XML API询问类似"link:sitedomain.com"的内容,找出指向该网站的链接:再次,您将在google主页上找到Python的代码示例.向Google提出域名排名也很有帮助.
e)您可以在SQLite数据库中收集数据,然后在Excel中进行后处理.
| 归档时间: |
|
| 查看次数: |
929 次 |
| 最近记录: |