PostgreSQL 和 S3QL 用于存储/访问大量数据

Ian*_*Ian 5 postgresql amazon-s3 s3ql

我们目前正在 Amazon EC2 上使用 Postgres 9,并且对其性能非常满意。现在,我们正在考虑向 Postgres 添加约 2TB 的数据,这超出了我们的 EC2 小型实例可以容纳的数据。

我找到了S3QL,并考虑将其与将 Postgres 数据目录移动到 S3 存储结合使用。有人有这样做的经验吗?我主要关心性能(频繁读取,不太频繁写入)。欢迎任何建议,谢谢。

And*_*rew 2

我的建议是“不要这样做”。我对你的问题的背景一无所知,但我想解决方案不必涉及通过 PostgreSQL 进行批量数据处理。发明网格处理系统的全部原因是为了解决分析大数据集的问题。我认为您应该考虑构建一个遵循围绕提取维度数据的标准 BI 实践的系统。然后获取标准化数据,假设它仍然很大,将其加载到 Hadoop/Pig 中。在那里进行分析和汇总。将生成的聚合数据转储到文件中,并将与维度一起加载到 PG 数据库中。