SHAP 值似乎是相加的,例如整体特征重要性图只是将每个特征的绝对 SHAP 值相加并进行比较。这使我们能够使用 SHAP 来衡量全局重要性和局部重要性。我们还可以以相同的方式获得数据记录的特定子集的特征重要性。
出于同样的原因,获取变量集的聚合 SHAP 值是否有效?例如,将“身高”、“体重”和“眼睛颜色”放入“人体描述”中,或将“温度”、“湿度”和“气压”放入“天气”中,并相应地对它们进行排名。
从理论上讲,我不明白为什么不这样做,但如果出现任何问题,我将不胜感激。
包作者 Lundberg 表示:“简短的答案是肯定的,您可以将各列的 SHAP 值相加,以获得整组特征的重要性(只需确保您不要像我们在遍历特征时那样采用绝对值)全局特征重要性的行)。
长的答案是,当沙普利值“公平”地为特征之间的交互效果分配信用时,他们假设交互效果中的每个特征都应该获得相同的交互信用。这意味着,对于高阶交互项,在对特征进行分组之前(和求和)与之后运行 Shapley 值时,您可能会得到略有不同的结果(因为新组只能获得交互饼图的一大块,而不是多个块)当它有几个功能时)。不过,这些差异通常很小,所以我不会太担心,因为这两种方式都是合理的。”