预测分析-“为什么”因素和模型可解释性

sha*_*arp 0 machine-learning data-science

我有包含大量x变量的数据,这些变量主要是分类/标称的,而我的目标变量是一个多类标签。我能够围绕几个模型来预测多类变量,并比较每个变量的执行情况。我有训练和测试数据。培训和测试数据都给了我很好的结果。

现在,我试图找出模型为什么“预测”了某些Y变量?表示是否有天气数据:X变量:城市,州,邮政编码,温度,年份;Y变量:雨,太阳,阴天,雪。我想找出模型为什么要预测的“原因”:分别是降雨,阳光,多云或下雪。我使用了多名词,决策树等分类算法。

这可能是一个广泛的问题,但我需要一个可以开始研究的地方。我可以预测“什么”,但看不到“为什么”被预测为降雨,阳光,多云或下雪的标签。基本上,我试图找到导致预测变量的变量之间的链接。

到目前为止,我想到了使用相关矩阵,主成分分析(在模型构建过程中发生)...至少是要查看哪些是好的预测变量,而哪些不是。有没有办法找出“为什么”因素?

谢谢一群!

des*_*aut 7

模型的可解释性是当前研究的一个活跃和高度活跃的领域(认为圣杯之类的东西),最近提出来的原因不仅仅在于深度学习模型在各种任务中的(通常是巨大的)成功,还有算法公平性和责任制的必要性...

除了深入的理论研究之外,最近还有一些实用的工具箱和库,既适用于神经网络,也适用于其他通用ML模型。以下是部分清单,可以说应该让您忙一段时间:

最后,随着可解释性逐渐成为主流,已经有框架和工具箱结合了以上提到和链接的一种以上算法和技术。这是Python内容的(再次,部分)列表:

也可以看看: