hip*_*out 15 database schema google-analytics
有人知道Google Analytics中的数据是如何组织的吗?很难从大量数据中选择它们非常快速地执行,数据库的结构是什么?
daw*_*wez 11
AFAIK Google Analytics(分析)源自Urchin.据说有可能因为现在Google Analytics是Google家族的一部分,所以它正在使用MapReduce/BigTable.我可以假设Google已经将Urchin DB的旧格式与新的BigTable/MapReduce集成在一起.
我发现这个链接谈论Urchin DB.可能目前仍有一些东西在使用.
http://www.advanced-web-metrics.com/blog/2007/10/16/what-is-urchin/
这说:
[snip] ...仍然使用专有数据库来存储报告数据,这使得即席查询更加有限,因为您必须使用Urchin开发的工具而不是更灵活的SQL工具.
http://www.urchinexperts.com/software/faq/#ques45
Urchin使用什么类型的数据库?
Urchin使用专有的平面文件数据库来存储报告数据.高性能数据库架构可有效处理非常高流量的站点.数据库架构的一些好处包括:
* Small database footprint approximately 5-10% of raw logfile size
* Small number of database files required per profile (9 per month of historical reporting)
* Support for parallel processing of load-balanced webserver logs for increased performance
* Databases are standard files that are easy to back up and restore using native operating system utilitiesv
Run Code Online (Sandbox Code Playgroud)
有关更多信息Urchin
http://www.google.com/support/urchin45/bin/answer.py?answer=28737
很久以前我曾经有一个跟踪器,他们在他们的网站上讨论数据规范化:http://www.2enetworx.com/dev/articles/statisticus5.asp
在那里,您可以找到有关如何减少数据库中数据的一些信息,也许这是研究的良好开端.
Google 出版物:Chang、Fay 等人。《Bigtable:结构化数据的分布式存储系统》 ACM 计算机系统交易 (TOCS) 26.2 (2008):
Bigtable 被 60 多个 Google 产品和项目使用,包括Google Analytics、Google Finance、Orkut、Personalized Search、Writely 和 Google Earth。
Google 产品组合中的许多地方和应用程序都使用MapReduce算法来存储和处理大量数据。
有关详细信息,请参阅有关 MapReduce 的 Google 研究出版物,并查看此Baseline 文章的第 4 页和第 5 页。