在python中处理大型数据池

Mas*_*one 4 python database large-data

我正在开展一个旨在研究人们行为的学术项目.

该项目将分为三个部分:

  1. 从一些远程源读取数据并使用它构建本地数据池的程序.
  2. 用于验证此数据池并使其保持一致的程序
  3. 允许人们读取/操作数据的Web界面.

数据由人员列表组成,所有人都具有ID#,并具有以下几个特征:身高,体重,年龄,......

我需要从这些数据中轻松制作组(例如:所有具有给定年龄或一系列高度的数据)并且数据是几TB(但可以在2-3 gb的较小子集中减少).

我对该项目的理论背景有很强的背景知识,但我不是计算机科学家.我知道java,C和Matlab,现在我正在学习python.

我想使用python,因为它似乎很容易,并大大减少了Java的冗长.问题是我想知道如何处理数据池.

我不是数据库的专家,但我想我需要一个.你认为我应该使用什么工具?

请记住,目标是在数据集上实现非常高级的数学函数,因此我们希望降低源代码的复杂性.速度不是问题.

eat*_*eat 5

听起来所需的主要功能可以从:
pytables

scipy/numpy找到