适用于大型数据集的Triplestore

Question

我想询问一个用于大型数据集的好三元组,它应该:

Answer 1

您应该考虑使用OpenLink Virtuoso商店.它可以通过OpenSource许可证获得,并可扩展到数十亿的三元组.您可以通过Sesame和Jena API使用它.

有关大型三联商店的概述,请参见此处.Virtuoso绝对比BigData更容易设置.除此之外,我使用了Sesame NativeStore,它不能很好地扩展.

4Store也是一个不错的选择,虽然我还没有用过它.Virtuoso超过4Store的一个好处是,您可以轻松地将标准关系模型与RDF混合,因为Virtuoso是一个关系数据库.

Answer 2

引用4store Web ...

4store的主要优势在于其性能,可扩展性和稳定性.除了RDF存储和SPARQL查询之外,它没有提供许多功能,但如果您正在寻找可扩展,安全,快速和高效的RDF存储,那么4store应该在您的候选名单上.

就个人而言,我已经测试了具有非常大的数据库(最多20亿三倍)的4store,并且效果非常好.4store用C语言编写,在Linux/Unix 64位平台上运行,当前版本1.1.1部分实现了SPARQL 1.1.

4store可以部署在商用服务器集群上,这可以提高查询性能,并且断言吞吐量最高可达100 KTriples /秒.但即使您在单个服务器中使用它,您也会获得相当不错的性能.

在南安普顿大学,我们可以选择研究项目中的大型数据集,也可以选择我们的网站管理员团队,请参阅南安普顿的数据存储和ECS开放数据.

此处还有一个列表,列出了可用于查询和管理4store Client Libraries的所有库.此外,4store的IRC频道拥有一个活跃的用户社区,如果您遇到任何问题,将会提供帮助.

如果您是Linux/Unix用户4store绝对是个不错的选择.

Answer 3

我也会推荐4store,但本着充分披露的精神,我是首席架构师:)

如果您想利用RDF存储的标准化,那么您应该使用实现SPARQL的Java库,而不是使用本机公开JAVA API的Java库.

否则你最终会被你选择的任何商店所困,因为他们之间的移动努力,这是典型的SQL迁移地狱.