在 networkit (python) 中使用 forEdges 迭代器

sat*_*ato 3 python graph network-analysis networkit

我仔细阅读了文档,但我仍然不清楚如何使用 G.forEdges(),它被描述为“实验边缘迭代器接口”。

假设我想降低图形的密度。我有一个排序的权重列表,我想根据它们的权重删除边,直到图分成两个连接的组件。然后我将选择保持图形连接的最少链接数。我会做这样的事情:

cc = components.ConnectedComponents(G).run()
while cc.numberOfComponents()==1:
    for weight in weightlist:
        for (u,v) in G.edges():
            if G.weight(u,v)==weight:
                G=G.removeEdge(u,v)
Run Code Online (Sandbox Code Playgroud)

顺便说一下,我从文档中知道有这个边缘迭代器,它可能以更有效的方式进行迭代。但是从文档中我真的无法理解如何正确使用 this forEdges,并且我无法在互联网上找到一个示例。有任何想法吗?

或者也许是做我想做的事情的另一种想法:因为它是一个巨大的图(1.25 亿个链接),即使我在一个集群上工作,迭代也将永远持续下去。

小智 5

NetworKit 迭代器接受一个回调函数,所以如果你想遍历边(或节点),你必须定义一个函数,然后将它作为参数传递给迭代器。您可以在此处找到更多信息。例如,一个只打印所有边的简单函数是:

# Callback function.
# To iterate over edges it must accept 4 parameters
def myFunction(u, v, weight, edgeId):
    print("Edge from {} to {} has weight {} and id {}".format(u, v, weight, edgeId))

# Using iterator with callback function
G.forEdges(myFunction)
Run Code Online (Sandbox Code Playgroud)

现在,如果您想继续删除权重在权重列表内的边,直到图拆分为两个连通分量,您还必须更新图的连通分量,因为 ConnectedComponents 不会自动为您执行此操作(这可能也是迭代需要永远的原因)。为了有效地做到这一点,您可以使用 DynConnectedComponents 类(请参阅下面的示例)。在这种情况下,我认为边缘迭代器对您没有多大帮助,因此我建议您继续使用 for 循环。

from networkit import *

# Efficiently updates connected components after edge updates
cc = components.DynConnectedComponents(G).run()

# Removes edges with weight equals to w until components split
def removeEdges(w):
    for (u, v) in G.edges():
        if G.weight(u, v) == weight:
            G.removeEdge(u, v)
            # Updating connected components
            event = dynamic.GraphEvent(dynamic.GraphEvent.EDGE_REMOVAL, u, v, weight)
            cc.update(event)
            if cc.numberOfComponents() > 1:
                # Components did split
                return True
    # Components did not split
    return False

if cc.numberOfComponents() == 1:
    for weight in weights:
        if removeEdges(weight):
            break
Run Code Online (Sandbox Code Playgroud)

这应该会加快您的原始代码的速度。但是,它仍然是顺序代码,因此即使您在多核机器上运行它,它也只会使用一个内核。