Hel*_*Boy 5 python heatmap correlation feature-selection
如何根据相关系数确定要从我们的模型中删除的变量。
请参阅下面的变量示例:
Top 10 Absolute Correlations:
Variable 1 Variable 2 Correlation Value
pdays pmonths 1.000000
emp.var.rate euribor3m 0.970955
euribor3m nr.employed 0.942545
emp.var.rate nr.employed 0.899818
previous pastEmail 0.798017
emp.var.rate cons.price.idx 0.763827
cons.price.idx euribor3m 0.670844
contact cons.price.idx 0.585899
previous nr.employed 0.504471
cons.price.idx nr.employed 0.490632
Run Code Online (Sandbox Code Playgroud)
自变量的相关矩阵热图“:
问题:
1)如何从两个变量之间计算的Correlation-value中去除一个高相关变量
例:之间的相关值pdays 和pmonths 是 1.000000 哪个变量从模型天或pmonths被删除?变量是如何确定的?
2)考虑丢弃变量的相关阈值范围是多少?例如:>0.65或>0.90等
3)请您解释一下上面的热图并解释要删除的变量及其原因?
您可以尝试使用另一个选择标准在每对高度相关的特征之间进行选择。例如,您可以使用信息增益 (IG),它衡量一个特征提供了多少关于该类的信息(即,它的熵减少 [TAL14]、[SIL07])。一旦检测到一对高度相关的特征(例如,正如您提到的pdays和pmonths),您就可以测量每个变量的 IG 并保留具有最高 IG 的那个。尽管如此,您也可以应用其他选择标准来代替 IG(例如,互信息最大化 [BHS15])。
对于阈值,您可以选择您想要的值(这取决于您的问题)。然而,为了安全起见,我会选择一个较高的值(例如 0.95),尽管您也可以考虑 0.94 或 0.9 左右的那些值。此外,您始终可以建立一个高值,然后降低该值以检查模型的性能。
[TAL14] 唐吉良、塞勒姆·阿莱利亚尼和刘欢。分类的特征选择:综述,第 37-64 页。CRC 出版社,2014 年 1 月。
[SIL07] Yvan Saeys、Iñaki Inza 和 Pedro Larrañaga。生物信息学中的特征选择技术综述。生物信息学,23(19):2507-2517,2007。
[BHS15] Mohamed Bennasar、Yulia Hicks、Rossitza Setchi。使用联合互信息最大化的特征选择。专家系统与应用,42(22): 8520-8532, 2015。