我正在使用scikit额外的树分类器:
model = ExtraTreesClassifier(n_estimators=10000, n_jobs=-1, random_state=0)
Run Code Online (Sandbox Code Playgroud)
一旦模型被拟合并用于预测类,我想找出每个特征对特定类预测的贡献.我如何在scikit中学习呢?是否可以使用额外的树分类器或我是否需要使用其他模型?
我正在使用Logistic回归(在scikit中)来解决二进制分类问题,并且我有兴趣能够解释每个单独的预测.更确切地说,我有兴趣预测正类的概率,并测量每个特征对该预测的重要性.
使用系数(Betas)作为衡量重要性通常是一个坏主意,如此回答,但我还没有找到一个好的选择.
到目前为止,我发现的最好的是以下3个选项:
所有选项(使用贝塔,蒙特卡罗和"留一出")对我来说似乎都是糟糕的解决方案.
实际问题:在决策时,使用线性分类器解释每个要素的重要性的最佳方法是什么?
快速注释#1:对于随机森林这是微不足道的,我们可以简单地使用prediction + bias分解,正如在这篇博文中精美地解释的那样.这里的问题是如何使用线性分类器(如Logistic回归)进行类似的操作.
machine-learning feature-selection scikit-learn logistic-regression coefficients