检测高度相关的属性

hik*_*ker 2 python scipy scikit-learn statsmodels

scikit-learn 可以用于去除使用多元线性回归时高度相关的特征吗?

关于@behzad.nouri 发布的在 statsmodels 中捕获高度多重共线性的答案,我有一些问题可以避免我的困惑。

于是,他检验了自变量的5列或特征之间的高度多重共线性;每列有 100 行或数据。他得到 w[0] 接近于零。那么我可以说应该删除第一列或第一个自变量以避免非常高的多重共线性吗?

ayh*_*han 5

为了检测多重共线性的原因,您可以简单地检查相关矩阵(behzad.nouri 答案中的前两行)以查看哪些变量彼此高度相关(查找接近 1 的值)。

另一种选择是查看方差膨胀因子 (VIF)。statsmodels 包也报告 VIF 值。没有标准阈值,但 VIF 值大于 4 被认为是有问题的。

import numpy as np
import statsmodels.stats.outliers_influence as oi
mean = [0, 0, 0]
cov = [[100, 90, 5], [90, 95, 10], [5, 10, 30]]
x, y, z = np.random.multivariate_normal(mean, cov, 1000).T
print np.corrcoef([x,y,z])
Run Code Online (Sandbox Code Playgroud)

在上面的代码中,我创建了三个随机变量xyzx和之间的协方差y很高,所以如果你打印出相关矩阵,你会看到这两个变量之间的相关性也很高(0.931)。

array([[ 1.        ,  0.93109838,  0.1051695 ],
   [ 0.93109838,  1.        ,  0.18838079],
   [ 0.1051695 ,  0.18838079,  1.        ]])
Run Code Online (Sandbox Code Playgroud)

在此阶段,您可以丢弃其中一个xy因为它们之间的相关性非常高,并且仅使用其中一个就足以解释大部分变化。

您也可以检查 VIF 值:

exog = np.array([x,y,z]).transpose()
vif0 = oi.variance_inflation_factor(exog, 0)
Run Code Online (Sandbox Code Playgroud)

如果你打印出来,vif0它会给你第一个变量的 7.21,这是一个很大的数字,表明第一个变量与其他变量的高度多重共线性。

从分析中排除哪个(xy)取决于您。您可以检查它们的标准化回归系数,看看哪个影响更大。如果您有多重共线性问题,您还可以使用岭回归或套索等技术。如果您想更深入,我建议改为询问CrossValidated