我正在进行数据预处理,并希望实际比较数据标准化与规范化与鲁棒缩放器的优势.
从理论上讲,准则是:
好处:
缺点:
我创建了20个随机数字输入并尝试了上述方法(红色数字表示异常值):
我注意到 - 实际上 - 归一化受到异常值的负面影响,新值之间的变化范围变得很小(所有值几乎相同,小数点后的-6位数0.000000x
) - 即使原始输入之间存在明显的差异!
PS
我想象一个场景,我想为神经网络准备我的数据集,我担心消失的梯度问题.不过,我的问题仍然存在.
python machine-learning normalization standardized scikit-learn