如何根据相关系数确定要从我们的模型中删除的变量。
请参阅下面的变量示例:
Top 10 Absolute Correlations:
Variable 1 Variable 2 Correlation Value
pdays pmonths 1.000000
emp.var.rate euribor3m 0.970955
euribor3m nr.employed 0.942545
emp.var.rate nr.employed 0.899818
previous pastEmail 0.798017
emp.var.rate cons.price.idx 0.763827
cons.price.idx euribor3m 0.670844
contact cons.price.idx 0.585899
previous nr.employed 0.504471
cons.price.idx nr.employed 0.490632
Run Code Online (Sandbox Code Playgroud)
自变量的相关矩阵热图“:
问题:
1)如何从两个变量之间计算的Correlation-value中去除一个高相关变量
例:之间的相关值pdays 和pmonths 是 1.000000 哪个变量从模型天或pmonths被删除?变量是如何确定的?
2)考虑丢弃变量的相关阈值范围是多少?例如:>0.65或>0.90等
3)请您解释一下上面的热图并解释要删除的变量及其原因?