处理与输出预测无关的特征?

Erb*_*yev 0 regression machine-learning linear-regression correlation

我使用多个特征进行回归分析。特征数为 20-23。现在,我检查每个特征与输出变量的相关性。一些特征显示相关系数接近 1 或 -1(高度相关)。一些特征显示相关系数接近 0。我的问题是:如果相关系数接近 0,我是否必须删除此特征?或者我可以保留它,唯一的问题是此功能不会对回归模型产生明显影响或对其产生微弱影响。或者删除那种功能是强制性的?

lej*_*lot 5

简而言之

  • 特征和输出之间的高(绝对)相关性意味着该特征应该作为预测器有价值
  • 特征和输出之间缺乏相关性意味着什么

更多细节

成对相关仅向您显示一件事如何影响另一件事,它完全没有说明此功能与其他功能的联系有多好。因此,如果您的模型不是微不足道的,那么您不应该删除变量,因为它们与输出无关)。我会给你一个例子,它应该告诉你为什么。

考虑以下示例,我们有 2 个特征(X,Y)和一个输出值(Z,假设红色为 1,黑色为 0)

在此处输入图片说明

X   Y   Z
1   1   1
1   2   0
1   3   0
2   1   0
2   2   1
2   3   0
3   1   0
3   2   0
3   3   1
Run Code Online (Sandbox Code Playgroud)

让我们计算相关性:

  • 相关(X,Z)= 0
  • 相关(Y,Z)= 0

所以......我们应该放弃所有价值?其中之一?如果我们删除任何变量 - 我们的问题就变得完全无法建模!“神奇”在于数据中实际上存在“隐藏”关系。

|X-Y|
0
1
2
1
0
1
2
1
0
Run Code Online (Sandbox Code Playgroud)

  • CORREL(|XY|, Z) = -0.8528028654

现在这是一个很好的预测器!

您实际上可以通过以下方式获得完美的回归器(插值器)

Z = 1 - sign(|X-Y|)
Run Code Online (Sandbox Code Playgroud)