python/scikit-learn中距离计算的稀疏实现

Nic*_*las 5 python machine-learning scikits scikit-learn

我有一个大的(100K×30K)和svmlight格式的(非常)稀疏数据集,我按如下方式加载:

import numpy as np
from scipy.cluster.vq import kmeans2
from scipy.spatial.distance import pdist, squareform
from sklearn.datasets import load_svmlight_file

X,Y = load_svmlight_file("somefile_svm.txt")
Run Code Online (Sandbox Code Playgroud)

它返回一个稀疏的scipy数组X.

我只需要计算所有训练点的成对距离

D = pdist(X)
Run Code Online (Sandbox Code Playgroud)

不幸的是,scipy.spatial.distance中的距离计算实现仅适用于密集矩阵.由于数据集的大小,使用pdist作为不可行

D = pdist(X.todense())
Run Code Online (Sandbox Code Playgroud)

任何有关此问题的稀疏矩阵距离计算实现或变通方法的指针都将非常受欢迎.

非常感谢

ogr*_*sel 5

scikit-learn有一个sklearn.metrics.euclidean_distances,对于稀疏矩阵和密集numpy的阵列是双向功能。请参阅参考文档

然而,尚未为稀疏矩阵实现非欧式距离。