我有dataFrame名为"data".我计算了数据的相关性:
corr = data.corr()
Run Code Online (Sandbox Code Playgroud)
我想从"data"文件中删除相关性大于0.75的列.使用以下命令可以非常轻松地在R中完成此操作:
hc=findCorrelation(corr,cutoff = 0.75)
data <- data[,-c(hc)]
Run Code Online (Sandbox Code Playgroud)
我在python中寻找类似的命令.在熊猫或scikit-learn中是否有任何可以执行类似工作的命令?
我有一个数据框名称data,通过使用该数据框名称绘制了相关矩阵
corr = data.corr()
Run Code Online (Sandbox Code Playgroud)
我想如果corr两列之间大于0.75,则从dataframe中删除其中之一data。我尝试了一些选择
raw =corr[(corr.abs()>0.75) & (corr.abs() < 1.0)]
Run Code Online (Sandbox Code Playgroud)
但这没有帮助,我需要原始值不为零的原始列号。基本上是以下R命令的一些python命令替换
{hc=findCorrelation(corr,cutoff = 0.75)
hc = sort(hc)
data <- data[,-c(hc)]}
Run Code Online (Sandbox Code Playgroud)
如果有人可以帮助我获取类似于上面提到的python pandas中的R命令的命令,那将很有帮助。