小编ani*_*ish的帖子

我有一个可以并行化的解决方案,但我(还)没有使用hadoop/nosql的经验,而且我不确定哪种解决方案最适合我的需求.理论上,如果我有无限的CPU,我的结果应该立即返回.所以,任何帮助将不胜感激.谢谢!

这就是我所拥有的:

1000个数据集
数据集键:
- 所有数据集都具有相同的键
- 100万把钥匙(后来可能是10或2000万)
数据集列:
- 每个数据集具有相同的列
- 10到20列
- 大多数列是我们需要聚合的数值(avg,stddev,并使用R来计算统计数据)
- 一些列是"type_id"列,因为在特定查询中,我们可能只想包含某些type_ids
Web应用程序
- 用户可以选择他们感兴趣的数据集(从15到1000)
- 应用程序需要呈现:每列的密钥和聚合结果(avg,stddev)
更新数据:
- 可以添加,删除或替换/更新整个数据集
- 能够添加列会很酷.但是,如果需要,可以只替换整个数据集.
- 永远不要向数据集添加行/键 - 因此不需要具有大量快速写入的系统
基础设施:
- 目前两台机器每台24芯
- 最终,想要能够在亚马逊上运行这个