相关疑难解决方法(0)

如何存储73亿行市场数据(优化待读)?

我有一个自1998年以来1000股的1分钟数据的数据集,总数(2012-1998)*(365*24*60)*1000 = 7.3 Billion在行数左右.

大多数(99.9%)的时间我只会执行读取请求.

将此数据存储在数据库中的最佳方法是什么?

  • 一张7.3B行的大桌子?
  • 1000个表(每个股票代码一个),每个7.3M行?
  • 任何数据库引擎的推荐?(我打算使用Amazon RDS的MySQL)

我不习惯处理这么大的数据集,所以这是我学习的绝佳机会.我将非常感谢您的帮助和建议.

编辑:

这是一个示例行:

'XX',20041208,938,43.7444,43.7541,43.735,43.7444,35116.7,1,0,0

第1列是股票代码,第2列是日期,第3列是分钟,其余是开 - 高 - 低 - 收盘价,成交量和3个整数列.

大多数查询都会像"在2012年4月12日12:15到2012年4月13日12:52之间给我AAPL的价格"

关于硬件:我打算使用Amazon RDS,所以我很灵活

database

77
推荐指数
5
解决办法
4万
查看次数

MongoDB作为时间序列数据库

我正在尝试将mongodb用于时间序列数据库,并且想知道是否有人可以建议如何最好地为该场景设置它.

时间序列数据与股票价格历史非常相似.我收集了来自不同机器的各种传感器的数据集.有十亿个时间戳的值,我想问下面的问题(最好是从数据库而不是应用程序级别):

  1. 对于给定的一组传感器和时间间隔,我希望按时间顺序排列在该间隔内的所有时间戳和传感器值.假设所有传感器共享相同的时间戳(它们都是同时采样的).

  2. 对于给定的一组传感器和时间间隔,我希望按时间顺序排列在给定间隔内的每个第k项(时间戳和相应的传感器值).

有关如何最好地设置并实现查询的任何建议?

谢谢你的建议.

time-series mongodb

24
推荐指数
2
解决办法
2万
查看次数

标签 统计

database ×1

mongodb ×1

time-series ×1