太字节数据集

Raz*_*ici 7 performance graph

我有一种感觉,大多数数据库系统起源于 80 年代,并且刻板地实现了表、ACID 事务和约束。它们的构建考虑到了内存、磁盘和处理能力的稀缺性。

我想知道是否有任何存储系统(不需要通过 SQL 访问)能够处理以下内容:

  • 图(查询 la SPARQL)。
  • 矩阵(n 维)也稀疏。支持平凡矩阵算法,如 SVD、聚类。
  • 有效管理不会连续变化的大(TB 级)数据;通过每天的批次正在发生变化。
  • 使用大型磁盘系统(14TB 的 RAID5 现在不到 1500 美元)。这意味着有更多空间用于索引、预先计算的结果等。
  • 利用 GPU/多核/处理器/节点进行大型查询和索引。

我知道大多数项目都在某处实现(Apache Cassandra、SPARQL、Netezza、Exadata),但我不知道任何可能实现所有项目的产品。

Ric*_*ard 5

我认为很多这些项目都在地平线上(或以后)。

例如,SPARQL 是我短期内不会看到数据库合并的东西。我见过的最接近的是SDB,这是一个处理 SPARQL 并将其发送到标准数据库的接口。

此外,使用 GPU 作为通用处理器仍然是一种革命性的东西。它在数据库世界中还没有完全流行起来。现阶段还停留在学术界和理论界。

只有一个小组(我能找到)正在开发一个数据库来利用 GPU。 Alenka是一个开源项目,但它仍在开发中。

此外,即将推出一种名为GPUTeraSort的新排序算法。但是(作为一种算法),我目前不知道有任何特定的数据库使用它。

最后,还有一个站点GPGPU,用于在 GPU 上进行通用计算,您可能需要关注。随着使用 GPU 的数据库出现,这将是报告它的站点。

说了这么多,使用多核或多处理器几乎是现状。SQL Server、MySQL、Oracle——所有主要数据库都使用多线程。


最终,您要求的项目目前远远超出了数据库世界。

您也可以尝试在 StackOverflow 上交叉发布这个,因为他们可能对如何使用图形、SPARQL、GPU 增强等处理 TB 级数据有一些想法。但是,他们的回答可能类似于,“是的,你可以做到,但这将是一个巨大的定制系统。”