处理大数据集（neo4j、mongo db、hadoop）

Question

我正在寻找处理数据的最佳实践。所以，这就是我到目前为止所得到的：1.000.000 个“A”类型的节点。每个“A”节点可以连接1-1000个“B”型节点和1-10个“C”型节点。

我编写了一个 RESTful 服务（Java、Jersey）来将数据导入到 neo4j 图中。在导入节点“A”（只有节点，有 ID，没有更多数据）后，我注意到 neo4j db 已经增长到 ~2.4GB。

在 neo4j 中存储附加字段（名称、描述等）是个好主意吗？或者我应该设置一个 mongoDB/hadoop 来使用键/值组合进行数据访问？

Answer 1

插入时是否删除了很多节点？通常一个节点在磁盘上占用 9 字节，因此您的 1M 节点应该只占用 9M 字节。您必须启用 ID 重用才能积极回收内存。

您能否列出数据目录的内容以及文件大小？

一般来说，如果其他字段不是大 blob 字段，将它们放入 Neo4j 中是没有问题的。

你是如何创建数据库的？