处理大数据集(neo4j、mongo db、hadoop)

Ale*_*bon 5 hadoop mongodb neo4j

我正在寻找处理数据的最佳实践。所以,这就是我到目前为止所得到的:1.000.000 个“A”类型的节点。每个“A”节点可以连接1-1000个“B”型节点和1-10个“C”型节点。

我编写了一个 RESTful 服务(Java、Jersey)来将数据导入到 neo4j 图中。在导入节点“A”(只有节点,有 ID,没有更多数据)后,我注意到 neo4j db 已经增长到 ~2.4GB。

在 neo4j 中存储附加字段(名称、描述等)是个好主意吗?或者我应该设置一个 mongoDB/hadoop 来使用键/值组合进行数据访问?

Mic*_*ger 2

插入时是否删除了很多节点?通常一个节点在磁盘上占用 9 字节,因此您的 1M 节点应该只占用 9M 字节。您必须启用 ID 重用才能积极回收内存。

您能否列出数据目录的内容以及文件大小?

一般来说,如果其他字段不是大 blob 字段,将它们放入 Neo4j 中是没有问题的。

你是如何创建数据库的?