Swa*_*Ron 5 python dictionary numpy matrix networkx
我有一个非常大的字典,其中包含元组作为键及其值。该词典应该用单词共现向量表示邻接矩阵,例如“工作”与“经验”一起出现 16 次,“工作”与“服务”一起出现 15 次。这是否是首选存储方法是另一个问题(由于我拥有大量数据,嵌套字典成为遍历的噩梦),但这就是我现在所拥有的。
Frequency:{
('work', 'experience'): 16,
('work', 'services'): 25,
('must', 'services'): 15,
('data', 'services'): 10,
...
...}
Run Code Online (Sandbox Code Playgroud)
感谢之前的文章,我已经能够使用 NetworkX 制作一个简单的二进制邻接矩阵,只需使用以下方法:
A=Frequency.keys()
networkx.Graph(A)
Run Code Online (Sandbox Code Playgroud)
当时的结果很好,但我的问题是我必须做什么才能使用其共现值作为矩阵中的值将频率转换为邻接矩阵,以便结果看起来与此类似:
array([[ 0., 16., 25., 0.],
[ 16., 0., 1., 0.],
[ 25., 1., 0., 1.],
[ 10., 0., 0., 0.]
...)
Run Code Online (Sandbox Code Playgroud)
如果这与之前的帖子类似,我深表歉意,但我只是找不到将这些元组转换为可以在 NetworkX 中使用的矩阵的正确方法。我假设我会使用 numpy,但我找不到这样的方法的任何文档。
提前致谢,
罗恩
这个答案可能会有所帮助。使用您的样本数据:
>>> frequency = {('work', 'experience'): 16,
... ('work', 'services'): 25,
... ('must', 'services'): 15,
... ('data', 'services'): 10}
>>> keys = np.array(frequency.keys())
>>> vals = np.array(frequency.values())
>>> keys
array([['work', 'services'],
['must', 'services'],
['work', 'experience'],
['data', 'services']],
dtype='|S10')
>>> vals
array([25, 15, 16, 10])
>>> unq_keys, key_idx = np.unique(keys, return_inverse=True)
>>> key_idx = key_idx.reshape(-1, 2)
>>> unq_keys
array(['data', 'experience', 'must', 'services', 'work'],
dtype='|S10')
>>> key_idx
array([[4, 3],
[2, 3],
[4, 1],
[0, 3]])
>>> n = len(unq_keys)
>>> adj = np.zeros((n, n) ,dtype=vals.dtype)
>>> adj[key_idx[:,0], key_idx[: ,1]] = vals
>>> adj
array([[ 0, 0, 0, 10, 0],
[ 0, 0, 0, 0, 0],
[ 0, 0, 0, 15, 0],
[ 0, 0, 0, 0, 0],
[ 0, 16, 0, 25, 0]])
>>> adj += adj.T
>>> adj
array([[ 0, 0, 0, 10, 0],
[ 0, 0, 0, 0, 16],
[ 0, 0, 0, 15, 0],
[10, 0, 15, 0, 25],
[ 0, 16, 0, 25, 0]])
Run Code Online (Sandbox Code Playgroud)