Mis*_*ian 4 machine-learning prediction weka feature-selection
我有一个包含大约 30 个特征的数据集,我想找出哪些特征对结果贡献最大。我有5种算法:
我读了很多有关信息增益技术的内容,它似乎与所使用的机器学习算法无关。它就像一种预处理技术。
我的问题如下:最佳实践是独立地为每个算法执行特征重要性还是仅使用信息增益。如果是的话,每种技术使用什么技术?
小智 5
首先,值得强调的是,您必须仅基于训练数据执行特征选择,即使它是一个单独的算法。在测试过程中,您可以从测试数据集中选择相同的特征。
我想到了一些方法:
特定的分类器可以通过提供有关特征/预测变量的额外信息来帮助解释:
我有一个包含大约 30 个特征的数据集,我想找出哪些特征对结果贡献最大。
这将取决于算法。如果您有 5 种算法,您可能会得到 5 个略有不同的答案,除非您在分类之前执行特征选择(例如使用互信息)。原因之一是随机森林和神经网络会拾取非线性关系,而逻辑回归则不会。此外,朴素贝叶斯对交互视而不见。因此,除非您的研究明确涉及这 5 个模型,否则我宁愿选择一个模型并继续进行。
| 归档时间: |
|
| 查看次数: |
646 次 |
| 最近记录: |