是否需要特征缩放

Question

是否需要特征缩放

Yan*_*uru 5 algorithm machine-learning

我正在使用示例数据集来学习聚类。此数据集包含关键字的出现次数。

由于所有都是不同关键字的出现次数，是否可以不缩放值并按原样使用它们？

我在互联网上阅读了几篇文章，其中强调缩放很重要，因为它会调整频率的相对性。由于大多数频率为 0 (95%+)，z 分数缩放会改变分布的形状，我觉得这可能是个问题，因为我正在改变数据的性质。

我正在考虑根本不改变价值观以避免这种情况。这会影响我从聚类中得到的结果的质量吗？

Answer 1

Art*_*lev 5

正如已经指出的那样，答案在很大程度上取决于所使用的算法。

如果您使用基于距离的算法与（通常是默认的）欧几里德距离（例如，k-Means 或 k-NN），它会更多地依赖于更大范围的特征，因为它的值的“典型差异”特征更大。

非基于距离的模型也会受到影响。虽然人们可能认为线性模型不属于这一类，因为缩放（和平移，如果需要）是一种线性变换，所以如果它使结果更好，那么模型应该学习它，对吧？事实证明，答案是否定的。原因是没有人使用普通的线性模型，它们总是与某种惩罚太大权重的正则化一起使用。这可以防止您的线性模型从数据中学习缩放。

有些模型与特征比例无关。例如，基于树的算法（决策树和随机森林）不受影响。树的节点通过将特征（最好地分割数据集）与阈值进行比较，将您的数据划分为 2 组。阈值没有正则化（因为应该保持树的高度很小），所以它不受不同尺度的影响。

话虽如此，通常建议对您的数据进行标准化（减去均值并除以标准差）。

归档时间：	10 年，7 月前
查看次数：	7558 次
最近记录：	6 年，7 月前