机器学习 - 按算法进行特征排名

Question

我有一个包含大约 30 个特征的数据集，我想找出哪些特征对结果贡献最大。我有5种算法：

我读了很多有关信息增益技术的内容，它似乎与所使用的机器学习算法无关。它就像一种预处理技术。

我的问题如下：最佳实践是独立地为每个算法执行特征重要性还是仅使用信息增益。如果是的话，每种技术使用什么技术？

Answer 1

首先，值得强调的是，您必须仅基于训练数据执行特征选择，即使它是一个单独的算法。在测试过程中，您可以从测试数据集中选择相同的特征。

我想到了一些方法：

特定的分类器可以通过提供有关特征/预测变量的额外信息来帮助解释：

我有一个包含大约 30 个特征的数据集，我想找出哪些特征对结果贡献最大。

这将取决于算法。如果您有 5 种算法，您可能会得到 5 个略有不同的答案，除非您在分类之前执行特征选择（例如使用互信息）。原因之一是随机森林和神经网络会拾取非线性关系，而逻辑回归则不会。此外，朴素贝叶斯对交互视而不见。因此，除非您的研究明确涉及这 5 个模型，否则我宁愿选择一个模型并继续进行。