如何归一化非正态分布？

Question

如何归一化非正态分布？

Chi*_*afy 4 python graph normal-distribution normalization

我有上述分布，均值为-0.02，标准差为0.09，样本量为13905。

我只是不确定为什么鉴于样本量大，分布是左偏的。从 bin [-2.0 到 -0.5]，该 bin 中只有 10 个样本计数/异常值，这解释了形状。

我只是想知道是否可以标准化以使其更平滑和“正态”分布。目的是将其输入模型，同时降低预测器的标准误差。

Answer 1

您在这里有两个选择。您可以选择 Box-Cox 变换或 Yeo-Johnson 变换。Box-Cox 变换的问题在于它仅适用于正数。要使用 Box-Cox 变换，您必须取指数，执行 Box-Cox 变换，然后取对数以获取原始比例的数据。Box-Cox 变换可用于scipy.stats

您可以避免这些步骤，只需使用 Yeo-Johnson 变换即可。sklearn为此提供了一个 API

from matplotlib import pyplot as plt
from scipy.stats import normaltest
import numpy as np
from sklearn.preprocessing import PowerTransformer

data=np.array([-0.35714286,-0.28571429,-0.00257143,-0.00271429,-0.00142857,0.,0.,0.,0.00142857,0.00285714,0.00714286,0.00714286,0.01,0.01428571,0.01428571,0.01428571,0.01428571,0.01428571,0.01428571,0.02142857,0.07142857])

pt = PowerTransformer(method='yeo-johnson')
data = data.reshape(-1, 1)
pt.fit(data)
transformed_data = pt.transform(data)

Run Code Online (Sandbox Code Playgroud)

我们已经转换了我们的数据，但我们需要一种方法来衡量并查看我们是否朝着正确的方向前进。由于我们的目标是成为正态分布，因此我们将使用正态性检验。

k2, p = normaltest(data)
transformed_k2, transformed_p = normaltest(transformed_data)

Run Code Online (Sandbox Code Playgroud)

测试返回两个值k2和p。这里的值p是我们感兴趣的。如果p大于某个阈值（ex0.001左右），我们可以说拒绝data来自正态分布的假设。

在上面的示例中，您会看到p大于0.001而transformed_p小于此阈值，表明我们正朝着正确的方向前进。

归档时间：	7 年，2 月前
查看次数：	2788 次
最近记录：	7 年，2 月前