相关疑难解决方法(0)

PostgreSQL是否支持透明压缩表(片段)?

我将在碎片化的PostgreSQL表(每天的表)中存储大量数据(日志).我想压缩其中的一些以节省我的光盘上的一些空间,但我不想失去以通常的方式查询它们的能力.

PostgreSQL是否支持这种透明压缩,哪里可以更详细地阅读它?我认为这个功能应该有一些众所周知的魔术名称.

compression postgresql storage

34
推荐指数
2
解决办法
3万
查看次数

MongoDB作为时间序列数据库

我正在尝试将mongodb用于时间序列数据库,并且想知道是否有人可以建议如何最好地为该场景设置它.

时间序列数据与股票价格历史非常相似.我收集了来自不同机器的各种传感器的数据集.有十亿个时间戳的值,我想问下面的问题(最好是从数据库而不是应用程序级别):

  1. 对于给定的一组传感器和时间间隔,我希望按时间顺序排列在该间隔内的所有时间戳和传感器值.假设所有传感器共享相同的时间戳(它们都是同时采样的).

  2. 对于给定的一组传感器和时间间隔,我希望按时间顺序排列在给定间隔内的每个第k项(时间戳和相应的传感器值).

有关如何最好地设置并实现查询的任何建议?

谢谢你的建议.

time-series mongodb

24
推荐指数
2
解决办法
2万
查看次数

输入为千兆/太字节大小时会发生什么变化?

今天,当我看到一个数据集,其中最小的文件是48000个字段乘1600行(几个人的单倍型,22号染色体)时,我今天刚刚迈出了我的第一个宝贝步骤进入真正的科学计算.这被认为是微不足道的.

我写Python,所以我花了最后几个小时阅读有关HDF5,Numpy和PyTable的内容,但我仍然觉得我并不是真正想要一个TB级数据集对于我作为程序员的实际意义.

例如,有人指出,对于较大的数据集,不可能将整个内容读入内存,不是因为机器内存不足,而是因为架构的地址空间不足!它让我大吃一惊.

还有什么其他的假设我一直在教室里依赖这个大的投入?我需要做些什么才能开始做或以不同的方式思考?(这不一定是Python特定的.)

python large-data-volumes scientific-computing

21
推荐指数
2
解决办法
1699
查看次数

文档数据库是否适合存储大量Stock Tick数据?

我正在考虑使用像mongodb或ravendb这样的数据库来存储大量的股票数据,并想知道与标准关系(如Sql Server)相比这是否可行.

数据实际上不是关系数据,而是几个巨大的表格.我也在想我可以按分钟/小时/天/周/月等来加/最小/最大行数据,以便进行更快的计算.

示例数据:500个符号*60分钟*60秒*300天......(每个记录我们存储:日期,开放,高,低,关闭,交易量,开放 - 所有小数/浮点数)

那你觉得怎么样?

database document stocks mongodb ravendb

11
推荐指数
2
解决办法
9391
查看次数

连接大量HDF5文件

我有大约500个HDF5文件,每个大约1.5 GB.

每个文件都具有相同的精确结构,即7个复合(int,double,double)数据集和可变数量的样本.

现在我想通过连接每个数据集来连接所有这些文件,以便最后我有一个包含7个数据集的750 GB文件.

目前我正在运行一个h5py脚本:

  • 使用无限制的最大数据集创建HDF5文件
  • 按顺序打开所有文件
  • 检查样本数量(因为它是可变的)
  • 调整全局文件的大小
  • 追加数据

这显然需要几个小时,你有关于改善这个的建议吗?

我正在开发一个集群,所以我可以并行使用HDF5,但是我在C编程中不够自己实现一些东西,我需要一个已经编写过的工具.

scientific-computing hdf5 dataset

9
推荐指数
1
解决办法
8144
查看次数

有关于如何设计数据文件结构的参考/资源吗?

可能重复:
设计(二进制)文件格式时有哪些重点?

我将开发一个将数据存储在文件中的程序.

文件可能很大.文件中的数据基本上由可变长度记录组成.我需要随机访问记录.

我只想阅读一些关于如何设计数据文件结构的资源/书籍.但我还没找到.

任何建议都非常感谢.

c c++ reference file

6
推荐指数
1
解决办法
218
查看次数