在python中创建邻接矩阵

Question

我想加载带符号（加权）图的 CSV 或文本文件并创建邻接矩阵。CSV 文件包含名为“FromNodeId”、“ToNodeId”和“Sign”的三列。我使用的代码如下：

G = nx.read_edgelist('soc-sign-epinions.txt', data = [('Sign', int)])
#print(G.edges(data = True))

A = nx.adjacency_matrix(G)
print(A.todense())

我遇到了以下错误

ValueError: array is too big; `arr.size * arr.dtype.itemsize` is larger than 
the maximum possible size

我怎么解决这个问题？请建议我一种创建邻接矩阵的方法。

Answer 1

存储大矩阵所需的内存很容易失控，这就是为什么nx.adjacency_matrix(G)返回一个存储效率更高的“稀疏矩阵”（利用许多条目将为 0）。

由于你的图有131000个顶点，整个邻接矩阵将使用大约131000^2 * 24 bytes（一个整数在python中占用24字节内存），大约是400GB。但是，您的图的所有边数不到 0.01%，换句话说，它非常稀疏，稀疏矩阵将适合您。

为了获得稀疏矩阵，只需使用 A = nx.adjacency_matrix(G)而不调用A.todense()它（这会尝试再次正常存储它）。

有一个内置函数scipy.sparse可以有效地保存和加载稀疏矩阵，请参见此处。例如，要保存稀疏矩阵 A，请使用

scipy.sparse.save_npz('filename.npz', A)

如果使用 txt 或 CSV 对您来说很重要，则必须手动执行。这可以通过迭代矩阵的每一行并将它们一一写入文件来完成：

for i in range(A.shape[0]): row = A.getrow(i).todense() [write row to file using your preferred method]

这可能需要几分钟才能运行，但应该可以工作（我使用相同大小的路径进行了测试）。