Yan*_*uru 5 algorithm machine-learning
我正在使用示例数据集来学习聚类。此数据集包含关键字的出现次数。
由于所有都是不同关键字的出现次数,是否可以不缩放值并按原样使用它们?
我在互联网上阅读了几篇文章,其中强调缩放很重要,因为它会调整频率的相对性。由于大多数频率为 0 (95%+),z 分数缩放会改变分布的形状,我觉得这可能是个问题,因为我正在改变数据的性质。
我正在考虑根本不改变价值观以避免这种情况。这会影响我从聚类中得到的结果的质量吗?
正如已经指出的那样,答案在很大程度上取决于所使用的算法。
如果您使用基于距离的算法与(通常是默认的)欧几里德距离(例如,k-Means 或 k-NN),它会更多地依赖于更大范围的特征,因为它的值的“典型差异”特征更大。
非基于距离的模型也会受到影响。虽然人们可能认为线性模型不属于这一类,因为缩放(和平移,如果需要)是一种线性变换,所以如果它使结果更好,那么模型应该学习它,对吧?事实证明,答案是否定的。原因是没有人使用普通的线性模型,它们总是与某种惩罚太大权重的正则化一起使用。这可以防止您的线性模型从数据中学习缩放。
有些模型与特征比例无关。例如,基于树的算法(决策树和随机森林)不受影响。树的节点通过将特征(最好地分割数据集)与阈值进行比较,将您的数据划分为 2 组。阈值没有正则化(因为应该保持树的高度很小),所以它不受不同尺度的影响。
话虽如此,通常建议对您的数据进行标准化(减去均值并除以标准差)。