所以这是一个很酷的东西,这些NoSQL数据库.所以有我的数据:一排排的气象数据行:值,代表某个站点的某些测量值(由WMO编号识别,而不是坐标),在某个时间.
不是每个站都测量每个参数,并不是每个参数都是一直测量的.
我存储了当前在MySQL中的这些数据(价值30年的小时值,产生约10亿个值).持续增长和可预见的更多数据的添加让我有点头疼.
阅读基于NoSQL系统的文档似乎很容易扩展,我想知道NoSQL是否也是气象数据的可行数据存储概念.你有这方面的经验吗?
更新:忘记了典型的查询:大多数查询需要时间轴上的数据:即从2010年1月1日00:00到2010年3月1日00:00给我站066310的温度.
或者:给我一个特定电台所有参数的最新值.
我目前在我的大学的神经科学研究实验室担任本科生实习生,在那里我是专门的“编码员/数学专家”。我知道这个描述很尴尬,但我认为这就是我的看法。
我有很多任务,包括更新遗留代码,这让我退后一步,尝试概念化执行此操作的最佳方法。我正在寻求有关构建流程的最佳方式的建议。
目前收集的数据有两种形式。一种是来自基于 3D 的捕获设备,该设备收集不同标记上的数据,尤其是它们的 xyz 位置,它可以将这些数据导出为 CSV 格式。然而,还有一个用 C 编写的奇怪的旧 API,我可以用它来手动获取数据。还有一个眼动仪以专有的二进制格式存储数据,并提供 MEX 文件以在 Matlab 中提取相关信息,但是编译后的 MEX 文件似乎完全是黑盒的。
我正在考虑尝试将所有数据存储在关系数据库中,并使用 python 插件来获取某些数据帧中所需的数据和结构以进行分析。我们谈论的是用于 3D 动作捕捉的 64floating 的大约 100,000 * 10。
是否值得研究 SQL 和 NOSQL 架构,还是应该将所有内容存储在结构化目录中的 HDF5 或 JSON 中?