机器学习:使用哪种算法识别训练集中的相关特征?

Dav*_*rks 3 machine-learning

我有一个问题,我可能有很多功能.基本上是一大堆数据点(讨论让我们说它有数百万个特征).我不知道哪些数据点有用以及与给定结果无关(我猜1%是相关的,99%是无关紧要的).

我确实有数据点和最终结果(二进制结果).我有兴趣减少功能集,以便我可以识别要收集的最有用的数据点集来训练未来的分类算法.

我目前的数据集是巨大的,如果我要确定相关的功能,减少我收集的数据点数量,增加培训示例的数量,我就无法生成尽可能多的数据量训练样本. .我希望通过更少的特征数据点(同时保持相关的特征数据点),我会得到更好的分类器和更多的训练样例.

  • 我应该关注哪些机器学习算法,首先,确定与结果相关的功能?

从一些阅读中我已经看到,似乎SVM为每个功能提供了加权,我可以使用它来识别得分最高的功能.谁能证实这一点?扩大解释?或者我应该考虑另一条线?

Ben*_*son 5

线性模型中的特征权重(逻辑回归,朴素贝叶斯等)可以被视为重要度量,前提是您的特征都在相同的范围内.

您的模型可以与用于学习的正则化器组合,以惩罚某些类型的特征向量(实质上将特征选择折叠到分类问题中).L1正则化逻辑回归听起来像是你想要的完美.