线性回归::标准化(Vs)标准化

San*_*mar 27 machine-learning feature-extraction linear-regression

我使用线性回归来预测数据.但是,当我标准化(Vs)标准化变量时,我得到完全对比的结果.

标准化= x -xmin/xmax - xmin零分标准化= x - xmean/xstd  

a) Also, when to Normalize (Vs) Standardize ?
b) How Normalization affects Linear Regression?
c) Is it okay if I don't normalize all the attributes/lables in the linear regression?
Run Code Online (Sandbox Code Playgroud)

谢谢,桑托什

IVl*_*lad 21

请注意,结果可能不一定如此不同.您可能只需要两个选项的不同超参数来提供类似的结果.

理想的是测试哪种方法最适合您的问题.如果由于某种原因你负担不起,大多数算法可能会比标准化更有利于标准化.

请参阅此处,了解一个应优先于另一个的示例:

例如,在聚类分析中,标准化对于比较基于特定距离度量的特征之间的相似性可能尤其重要.另一个突出的例子是主成分分析,我们通常更喜欢标准化而不是Min-Max缩放,因为我们对最大化方差的组件感兴趣(取决于问题以及PCA是否通过相关矩阵计算组件而不是协方差矩阵;但在我之前的文章中更多关于PCA).

但是,这并不意味着Min-Max缩放根本没用!一种流行的应用是图像处理,其中像素强度必须被标准化以适合特定范围(即,对于RGB颜色范围,0到255).而且,典型的神经网络算法需要0-1级的数据.

规范化优于标准化的一个缺点是它丢失了数据中的一些信息,尤其是关于异常值的信息.

同样在链接页面上,有这样的图片:

标准化和标准化数据集的图

如您所见,缩放将所有数据聚集在一起非常接近,这可能不是您想要的.它可能导致诸如梯度下降之类的算法需要更长的时间才能收敛到它们在标准化数据集上的相同解决方案,或者甚至可能使其变得不可能.

"规范化变量"并没有多大意义.正确的术语是"规范化/缩放特征".如果要对一个功能进行标准化或缩放,则应对其余功能执行相同操作.


Sim*_*mon 8

这是有道理的,因为规范化和标准化做了不同的事情.

规范化将数据转换为0到1之间的范围

标准化转换您的数据,使得结果分布的均值为0,标准差为1

规范化/标准化旨在实现类似的目标,即创建彼此具有相似范围的特征.我们希望如此,因此我们可以确定我们正在捕获特征中的真实信息,并且我们不会因为其值远大于其他特征而对特定特征进行权衡.

如果您的所有功能都在相似的范围内,则不需要标准化/规范化.但是,如果某些特征自然地采用比其他特征大得多/小的值,则需要进行标准化/标准化

如果您要对至少一个变量/特征进行规范化,我也会对所有其他变量/特征做同样的事情

  • 这不是真的。特征范围是问题的一部分,但许多算法都受益于标准化部分。简单的缩放可能会丢失数据中的重要信息,尤其是与异常值相关的信息。RBF 内核在非标准化数据上的表现要差得多。目标并不相同。 (2认同)

Ash*_*and 6

第一个问题是为什么我们需要标准化/标准化?

=> 我们以数据集为例,其中有薪水变量和年龄变量。年龄可以从 0 到 90 岁,其中工资可以从 2.5 万到 25 万。

我们比较 2 人的差异,然后年龄差异将在 100 以内,而工资差异将在数千以内。

因此,如果我们不希望一个变量支配其他变量,那么我们使用标准化或标准化。现在年龄和薪水将处于相同的范围内,但是当我们使用标准化或归一化时,我们会丢失原始值并转换为某些值。所以当我们想从我们的数据中得出推论时,失去解释但非常重要。

归一化将值重新调整到 [0,1] 的范围内。也称为最小-最大缩放。

标准化将数据重新调整为均值 (?) 为 0,标准差 (?) 为 1。因此它给出了一个正态图。

在此处输入图片说明

下面的例子:

在此处输入图片说明

另一个例子:

在此处输入图片说明

在上图中,您可以看到我们的实际数据(绿色)以 1 到 6 的比例分布,标准化数据(红色)分布在 -1 到 3 左右,而标准化数据(蓝色)分布在 0 到 1 左右.

通常,许多算法要求您在作为参数传递之前首先标准化/规范化数据。就像在 PCA 中一样,我们通过将 3D 数据绘制成 1D(比如说)来进行降维。这里我们需要标准化。

但在图像处理中,需要在处理前对像素进行归一化处理。但是在标准化过程中,我们会丢失异常值(极端数据点 - 太低或太高),这是一个轻微的缺点。

所以这取决于我们选择的偏好,但最推荐标准化,因为它给出了一条正态曲线。