我有一个自1998年以来1000股的1分钟数据的数据集,总数(2012-1998)*(365*24*60)*1000 = 7.3 Billion在行数左右.
大多数(99.9%)的时间我只会执行读取请求.
将此数据存储在数据库中的最佳方法是什么?
我不习惯处理这么大的数据集,所以这是我学习的绝佳机会.我将非常感谢您的帮助和建议.
编辑:
这是一个示例行:
'XX',20041208,938,43.7444,43.7541,43.735,43.7444,35116.7,1,0,0
第1列是股票代码,第2列是日期,第3列是分钟,其余是开 - 高 - 低 - 收盘价,成交量和3个整数列.
大多数查询都会像"在2012年4月12日12:15到2012年4月13日12:52之间给我AAPL的价格"
关于硬件:我打算使用Amazon RDS,所以我很灵活
我正在尝试将mongodb用于时间序列数据库,并且想知道是否有人可以建议如何最好地为该场景设置它.
时间序列数据与股票价格历史非常相似.我收集了来自不同机器的各种传感器的数据集.有十亿个时间戳的值,我想问下面的问题(最好是从数据库而不是应用程序级别):
对于给定的一组传感器和时间间隔,我希望按时间顺序排列在该间隔内的所有时间戳和传感器值.假设所有传感器共享相同的时间戳(它们都是同时采样的).
对于给定的一组传感器和时间间隔,我希望按时间顺序排列在给定间隔内的每个第k项(时间戳和相应的传感器值).
有关如何最好地设置并实现查询的任何建议?
谢谢你的建议.