构建完整数据仓库平台的开源工具和技术有哪些?

und*_*ack 35 open-source data-warehouse

我正在寻找可能免费或免费试用版的这些开源工具来建立完整的数据仓库堆栈.

我知道很少像Pentaho开源Mondrian服务器,但无法获得任何google结果来设置完整的平台.我不确定这些组件是否相互兼容?有人可以列出他们在链中的位置吗?

Pas*_*ent 51

开源的数据仓库的标识可用于构建数据仓库栈OSS组件做了伟大的工作:基础设施(服务器,操作系统,数据库),集成管理(ETL,EAI等),信息管理(DW /沃尔玛/ ODS,OLAP服务器等),信息传递(门户,仪表板,分析/ OLAP客户端等).以下是摘要:

开源BI/DW项目

BI和分析

数据库

积分

我建议浏览演示文稿.好东西.

  • @ 42n4 RapidMiner不是开源的.社区版本限制为10,000条记录... https://docs.rapidminer.com/latest/studio/installation/license-limits.html (2认同)

shm*_*ael 10

数据仓库堆栈(或套件)通常由三层组成.这些通常被称为ETL(加载)DatabaseReporting(接口).此外,还有一些更高级的性能和专家需求工具.这些包括CubesStatistical Analysis Tools.

就互操作性而言,ETL工具和报告工具需要支持您正在使用的任何数据库.但是,由于只有两个大型开源数据库,因此混合不同解决方案通常没有问题.

至于细节 -

1 - ETL

数据加载可以通过Pentaho的数据集成或Talend(eclipse扩展)等开源工具实现.我建议谷歌搜索"开源etl"来定制解决方案,以满足您的特定需求.

2 - DB

您需要一个关系数据库(RDBMS).两个最着名的开源播放器是PostgreSQL(由Stack Overflow使用)和MySQL.虽然MySQL拥有更大的用户群,但自从实现早期版本中缺少的几个关键功能以来,Postgres的受欢迎程度越来越高.

3 - 报告

Pentaho提供报告平台.BIRT也是如此(另一个eclipse扩展).再次,Google是您进行特定比较的朋友.请注意,如果您为ETL和报告工具选择Pentaho,您可能会享受更好的集成.您还提到了Mondrian,它是一种通过RDBMS生成MDX查询的工具.MDX是查询多维数据集的标准语言.

在这个时间点,假设您从头开始,我建议设置数据仓库的前两层 - ETL和DB.您可以稍后添加任意数量的报告工具.