Mo *_*abi 11 postgresql data-warehouse etl
我对 PostgreSQL 很陌生,我以前从未使用过它进行过大型部署。但是,我在企业解决方案方面有很好的经验,我想尝试应用我使用 PostgreSQL 学到的一些知识。
我有大小可以处理大量数据和流量的站点。该基础设施将在亚马逊 (AWS) 上使用 EC2 实例和 EBS 卷构建。
设计应该有两个数据库,一个主事务数据库和一个数据仓库来处理分析和报告。
主要事务数据库
将用于实时网站,该网站建立在多个节点上以扩展并发用户。主要是我们要求这个案例的数据库读取操作非常快,我们预计>100GB的数据,每年增长30%。此时,我们计划使用两台 EC2 服务器(稍后根据需要添加更多服务器)。
我的问题是,针对上述要求的推荐设置是什么?另外,有没有办法管理表和卷分区?是否有使用 AWS 设置的建议?
数据仓库数据库
将主要用于在时间维度上从主事务数据库中捕获所有数据。因此,即使是从主数据库中删除的记录也会在 DWH 中被捕获。因此,数据会非常大,增长会更大。如果需要,我们还将使用几个 EC2 实例或更多实例。
在这种情况下,推荐的设置是什么?由于恒定写入(ETL),这将需要快速写入操作。我们可以在 PostgreSQL 中构建 OLAP 多维数据集吗?如果是的话,有人试过吗?
连接到数据库
Web 服务器将连接到主数据库进行查询和写入。我们目前正在使用 django 开发一个应用程序,它使用本机库进行连接。是否建议使用相同的基本方法?还是我们应该配置 pgpool?
数据仓库 (ETL)
构建 ETL 流程以从 main 读取并加载到数据仓库的推荐方法是什么?有什么工具吗?要遵循的方法论?PostgreSQL 在构建 ETL 过程中是否提供任何有用的功能/工具?
基础设施/数据库服务
您可能应该阅读本文,了解使用 EBS 在 AWS 上运行的大容量站点的概述。他们已转向临时存储,但必须创建一些冗余才能(重新)存储数据。
http://blog.reddit.com/2012/01/january-2012-state-of-servers.html
数据仓库/ETL
我过去用过Pentaho。不直接使用 postgres,但我发现它对于 OLAP (Mondrian) 和 ETL (Kettle) 来说都是一个很好的解决方案
编辑:“社区版本”可以在这里找到
联系
这些人似乎真的很喜欢 pgbouncer。/sf/ask/78785311/
不过,我没有这方面的经验。显然,Disqus 使用它。
归档时间: |
|
查看次数: |
11385 次 |
最近记录: |