我非常困惑,无法在互联网上找到有关数据预处理群集的以下问题的令人信服的答案。
根据Python 文档,当我们使用sckit学习库中的内置命令进行预处理时,假设数据被表示为N x D矩阵,其中行是样本,列是特征,则我们将各行的均值设为零,并在同时,各行之间的标准偏差是统一的,如下所示:
X_scaled.mean(axis=0)
array([ 0., 0., 0.])
X_scaled.std(axis=0)
array([ 1., 1., 1.])
Run Code Online (Sandbox Code Playgroud)
我的问题是,我们是否应该使列的均值(特征而不是样本)为零,并且对于标准偏差也应相同,因为我们正在尝试标准化特征而不是样本。网站和其他资源始终跨行进行标准化,但它们从未解释为什么?