Neo4j 中性能缓慢的批量更新关系属性

Question

Neo4j 中性能缓慢的批量更新关系属性

我正在努力在 Neo4j 中有效地批量更新关系属性。目标是更新大约 500,000 个关系（每个关系大约有 3 个属性），我将它们分成 1,000 个批次并在单个 Cypher 语句中处理，

UNWIND {rows} AS row
MATCH (s:Entity) WHERE s.uuid = row.source
MATCH (t:Entity) WHERE t.uuid = row.target
MATCH (s)-[r:CONSUMED]->(t)
SET r += row.properties

Run Code Online (Sandbox Code Playgroud)

但是，每批 1,000 个节点大约需要 60 秒。:Entity标签的UUID 属性上存在索引，即我以前运行过，

CREATE INDEX ON :Entity(uuid)

Run Code Online (Sandbox Code Playgroud)

这意味着根据查询计划匹配关系非常高效，

总共有 6 次 db 命中，查询执行时间约为 150 毫秒。我还在 UUID 属性上添加了唯一性约束，以确保每个匹配项仅返回一个元素，

CREATE CONSTRAINT ON (n:Entity) ASSERT n.uuid IS UNIQUE

Run Code Online (Sandbox Code Playgroud)

有谁知道我如何进一步调试以了解为什么 Neo4j 需要这么长时间来处理关系？

请注意，我正在使用类似的逻辑来更新节点，这些节点的速度要快几个数量级，这些节点具有更多与之关联的元数据。

作为参考，我使用的是 Neo4j 3.0.3、py2neo 和 Bolt。Python 代码块的形式为，

for chunk in chunker(relationships): # 1,000 relationships per chunk
    with graph.begin() as tx:
        statement = """
            UNWIND {rows} AS row
            MATCH (s:Entity) WHERE s.uuid = row.source
            MATCH (t:Entity) WHERE t.uuid = row.target
            MATCH (s)-[r:CONSUMED]->(t)
            SET r += row.properties
            """

            rows = []

            for rel in chunk:
                rows.append({
                    'properties': dict(rel),
                    'source': rel.start_node()['uuid'],
                    'target': rel.end_node()['uuid'],
                })

            tx.run(statement, rows=rows)

Run Code Online (Sandbox Code Playgroud)

Answer 1

Wil*_*yon 2

尝试这个查询：

UNWIND {rows} AS row
WITH row.source as source, row.target as target, row
MATCH (s:Entity {uuid:source})
USING INDEX s:Entity(uuid)
WITH * WHERE true
MATCH (t:Entity {uuid:target})
USING INDEX t:Entity(uuid)
MATCH (s)-[r:CONSUMED]->(t)
SET r += row.properties;

Run Code Online (Sandbox Code Playgroud)

它使用索引提示强制对两个 Entity节点进行索引查找，然后使用一个Expand(Into)运算符，该运算符应该比查询计划中显示的Expand(All)and运算符性能更高。Filter

归档时间：	9 年前
查看次数：	781 次
最近记录：	9 年前