我有包含大量x变量的数据,这些变量主要是分类/标称的,而我的目标变量是一个多类标签。我能够围绕几个模型来预测多类变量,并比较每个变量的执行情况。我有训练和测试数据。培训和测试数据都给了我很好的结果。
现在,我试图找出模型为什么“预测”了某些Y变量?表示是否有天气数据:X变量:城市,州,邮政编码,温度,年份;Y变量:雨,太阳,阴天,雪。我想找出模型为什么要预测的“原因”:分别是降雨,阳光,多云或下雪。我使用了多名词,决策树等分类算法。
这可能是一个广泛的问题,但我需要一个可以开始研究的地方。我可以预测“什么”,但看不到“为什么”被预测为降雨,阳光,多云或下雪的标签。基本上,我试图找到导致预测变量的变量之间的链接。
到目前为止,我想到了使用相关矩阵,主成分分析(在模型构建过程中发生)...至少是要查看哪些是好的预测变量,而哪些不是。有没有办法找出“为什么”因素?
谢谢一群!