如何计算一个数字与平均值的标准差有多少？

Question

如何计算一个数字与平均值的标准差有多少？

use*_*838 4 python arrays numpy standard-deviation scikit-learn

我有一个大小为 (61964, 25) 的矩阵。这是一个示例：

array([[  1.,   0.,   0.,   4.,   0.,   1.,   0.,   0.,   0.,   0.,   3.,
          0.,   2.,   1.,   0.,   0.,   3.,   0.,   3.,   0.,  14.,   0.,
          2.,   0.,   4.],
       [  0.,   0.,   0.,   1.,   2.,   0.,   0.,   0.,   0.,   0.,   1.,
          0.,   2.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,   5.,   0.,
          0.,   0.,   1.]])

Run Code Online (Sandbox Code Playgroud)

Scikit-learn 提供了一个有用的函数，前提是我们的数据呈正态分布：

from sklearn import preprocessing

X_2 = preprocessing.scale(X[:, :3])

Run Code Online (Sandbox Code Playgroud)

然而，我的问题是我必须按行进行工作 - 这不仅仅包含 25 个观察值 - 因此正态分布在这里不适用。解决方案是使用 t 分布，但如何在 Python 中做到这一点？

通常，值从 0 到 20。当我看到异常高的数字时，我会过滤掉整行。以下直方图显示了我的实际分布：

在此输入图像描述

Answer 1

Ale*_*ley 5

scipy.stats具有允许您计算某个值比平均值高出多少个标准差的函数zscore（通常称为标准分数或Z 分数）。

如果arr是您问题中的示例数组，那么您可以计算每行 25 的 Z 分数，如下所示：

>>> import scipy.stats as stats
>>> stats.zscore(arr, axis=1)
array([[-0.18017365, -0.52666143, -0.52666143,  0.8592897 , -0.52666143,
        -0.18017365, -0.52666143, -0.52666143, -0.52666143, -0.52666143,
         0.51280192, -0.52666143,  0.16631414, -0.18017365, -0.52666143,
        -0.52666143,  0.51280192, -0.52666143,  0.51280192, -0.52666143,
         4.32416754, -0.52666143,  0.16631414, -0.52666143,  0.8592897 ],
       [-0.43643578, -0.43643578, -0.43643578,  0.47280543,  1.38204664,
        -0.43643578, -0.43643578, -0.43643578, -0.43643578, -0.43643578,
         0.47280543, -0.43643578,  1.38204664, -0.43643578, -0.43643578,
        -0.43643578, -0.43643578, -0.43643578, -0.43643578, -0.43643578,
         4.10977027, -0.43643578, -0.43643578, -0.43643578,  0.47280543]])

Run Code Online (Sandbox Code Playgroud)

此计算使用每行的总体平均值和标准差。要使用样本方差（与 t 统计量一样），请另外指定ddof=1：

stats.zscore(arr, axis=1, ddof=1)

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，11 月前
查看次数：	4745 次
最近记录：	9 年前