在为大约30 TB数据选择Graph DB时要考虑哪些因素

pje*_*has 0 graph neo4j titan giraph

我正在开发一个软件系统(Graph Database)来研究多个组件之间的互连.最终可能会有大约30 TB的数据.我想知道在选择正确的数据库时需要考虑的因素.

我正在寻找的一些选项是Apache Giraph,TitanDB.我也想知道像neo4j或OrientDB这样规模较小的数据库本身是否可行

Fil*_*ira 5

这是一个非常广泛的问题,因此我会准确定义您要查找的内容,因为大小可能有点模糊.

我认为您提供的任何示例图表dbs都可以对大数据进行建模.

您可以问自己的一些"更详细"的问题包括:

  1. 你关心横向缩放吗?如果是,则应该查看TitanDB,OrientDB或DSE Graph,因为Neo4J(在编写本文时)不会水平扩展,因此它受服务器大小的限制.
  2. 标准化语言查询/遍历语言是否重要?如果是,那么您可能应该更多地关注Tinkerpop供应商,例如TitanDB,OrientDB,DSE Graph等.如果没有,那么任何选项都适合你.
  3. 我的数据是否有超级节点?如果是,那么您应该看到每个供应商如何处理超级节点.一些厂商进行分片,别人用巧妙的图形partioning算法.
  4. 你想要多少支持?如果你需要很多,那么你应该看看强大的企业解决方案,如DSE,OrientDB或Neo4J.Neo4J目前被认为是最受欢迎的图形数据库,因此具有很大的支持基础.
  5. 你想使用开源软件吗?如果是,那么TitanDB,Neo4j或OrientDB可能适合您

这些只是在所有供应商之间做出更好决策时可以考虑的一些事项.注意:您可以考虑许多其他供应商,Blazegraph,HypergraphDB,仅举几例.