在Python中,如何计算两个数据阵列之间的相关性和统计显着性?

Chr*_*ard 9 python statistics numpy scipy correlation

我有两个同样长的数据数组的数据集,或者我可以创建一个两项条目数组,我想计算数据所代表的相关性和统计显着性(可能紧密相关,或者可能有无统​​计学意义的相关性).

我用Python编程并安装了scipy和numpy.我在Python中查看并发现了计算Pearson相关性和重要性,但这似乎希望对数据进行操作,使其落入指定范围.

我假设,有什么方法可以让scipy或numpy给出两个数组的相关性和统计显着性?

cjo*_*318 7

如果你想计算Pearson Correlation Coefficient,那么scipy.stats.pearsonr就是要走的路; 虽然,重要性仅对较大的数据集有意义.此功能不需要操纵数据落入指定范围.相关的值落在区间[-1,1],也许是混乱?

如果重要性不是非常重要,您可以使用numpy.corrcoef().

马哈拉诺比斯距离确实考虑了两个阵列之间的相关性,但它提供了距离测量,而不是相关性.(数学上,马哈拉诺比斯距离不是真正的距离函数;然而,它可以在某些情况下如此使用,以获得巨大的优势.)


Ori*_*eto 2

您可以使用这两个数组之间的马哈拉诺比斯距离,该距离考虑了它们之间的相关性。

该函数位于 scipy 包中:scipy.spatial.distance.mahalanobis

这里有一个很好的例子