解释 XGB 特征重要性和 SHAP 值

Question

对于特定的预测问题，我观察到某个变量在生成的 XGBoost 特征重要性（基于增益）中排名较高，而在 SHAP 输出中排名相当低。

这该如何解释呢？例如，变量对于我们的预测问题是否非常重要？

Answer 1

基于杂质的重要性（例如 sklearn 和 xgboost 内置例程）总结了树节点对特征的总体使用情况。这自然会给高基数特征更多的权重（更多的特征值产生更多可能的分裂），而增益可能会受到树结构的影响（即使预测可能相同，节点顺序也很重要）。可能有很多分裂对预测影响不大，或者相反（许多分裂稀释了平均重要性） - 请参阅https://towardsdatascience.com/interpretable-machine-learning-with-xgboost-9ec80d148d27和https:// /www.actuaries.digital/2019/06/18/analytics-snippet-feature-importance-and-the-shap-approach-to-machine-learning-models/了解各种不匹配示例。

以一种过于简单化的方式：