相关特征和分类准确性

Tit*_*llo 36 classification machine-learning correlation feature-selection

我想问一下每个人关于相关特征(变量)如何影响机器学习算法的分类准确性的问题.相关特征我指的是它们之间的相关性而不是目标类别(即周长和几何图形的面积或教育水平和平均收入)之间的相关性.在我看来,相关特征会对分类算法的准确性产生负面影响,我会说,因为相关性使其中一个无用.它真的像这样吗？问题是否随分类算法类型的变化而变化？任何关于论文和讲座的建议都非常受欢迎!谢谢

Answer 1

bog*_*ron 25

相关特征本身不会影响分类准确性.实际情况中的问题是我们有一些训练样本,用于训练分类器.对于固定数量的训练示例,增加特征的数量通常会将分类精度提高到一定程度,但随着特征数量的不断增加,分类精度最终会降低,因为相对于大量特征我们的采样率不足.要了解更多有关此问题的含义,请查看维度的诅咒.

如果两个数字特征完全相关,则不会添加任何其他信息(由另一个确定).因此,如果特征的数量太高(相对于训练样本大小),则通过特征提取技术(例如,通过主要组件)减少特征的数量是有益的.

相关性的影响取决于分类器的类型.一些非参数分类器对变量的相关性不太敏感(尽管训练时间可能随着特征数量的增加而增加).对于诸如高斯最大似然的统计方法,相对于训练样本大小具有太多相关特征将使得分类器在原始特征空间中不可用(样本数据的协方差矩阵变为单数).

Answer 2

Alp*_*ayr 2

一般来说，我想说特征越不相关，分类器的性能就越好。给定一组高度相关的特征，可以使用 PCA 技术使它们尽可能正交，以提高分类器性能。

归档时间：	12 年，10 月前
查看次数：	23667 次
最近记录：	9 年，6 月前