有没有一种方法来检查熊猫数据框中的列的线性相关性?例如:
columns = ['A','B', 'C']
df = pd.DataFrame(columns=columns)
df.A = [0,2,3,4]
df.B = df.A*2
df.C = [8,3,5,4]
print(df)
A B C
0 0 0 8
1 2 4 3
2 3 6 5
3 4 8 4
Run Code Online (Sandbox Code Playgroud)
有没有一种方法可以证明该列B是的线性组合A,但是C是独立的列呢?我的最终目标是对数据集进行泊松回归,但我一直遇到LinAlgError: Singular matrix错误,这意味着我的数据框不存在任何逆,因此它包含相关列。
我想提出一种编程方式来检查每个功能并确保没有相关列。