Spark 如何加速批量加载到 JanusGraph？

Question

我需要使用 Cassandra 后端从其他存储加载大量顶点和边到 JanusGraph。我读过有关批量加载和 Spark 配置的内容（https://docs.janusgraph.org/advanced-topics/bulk-loading/和https://docs.janusgraph.org/advanced-topics/hadoop/）。

很清楚如何配置 JanusGraph 以使用 Spark，但我仍然不确定如何使用 Spark，以及 Spark 是否可以帮助加快插入到图表中的速度。

请给出一些使用 Hadoop MapReduce 或 Spark 来加速向 Janusgraph 批量加载数据的用例和代码示例（首选 Java 或 Python）。欢迎任何帮助！

Answer 1

我最近参与了 POC 项目，使用 Apache Spark 将数据批量加载到 JanusGraph 中。使用 Spark 加载数据时我们获得了相当好的性能。下面的文章提供了设置和示例代码。