小编Ava*_*hra的帖子

python pandas中的等效R"findcorrelation(corr,cutoff = 0.75)"

我有dataFrame名为"data".我计算了数据的相关性:

corr = data.corr()
Run Code Online (Sandbox Code Playgroud)

我想从"data"文件中删除相关性大于0.75的列.使用以下命令可以非常轻松地在R中完成此操作:

hc=findCorrelation(corr,cutoff = 0.75)
data <- data[,-c(hc)]
Run Code Online (Sandbox Code Playgroud)

我在python中寻找类似的命令.在熊猫或scikit-learn中是否有任何可以执行类似工作的命令?

python numpy r pandas scikit-learn

3
推荐指数
1
解决办法
606
查看次数

如果相关性大于0.75,请从熊猫的数据框中删除该列

我有一个数据框名称data,通过使用该数据框名称绘制了相关矩阵

corr = data.corr()
Run Code Online (Sandbox Code Playgroud)

我想如果corr两列之间大于0.75,则从dataframe中删除其中之一data。我尝试了一些选择

raw =corr[(corr.abs()>0.75) & (corr.abs() < 1.0)]
Run Code Online (Sandbox Code Playgroud)

但这没有帮助,我需要原始值不为零的原始列号。基本上是以下R命令的一些python命令替换

{hc=findCorrelation(corr,cutoff = 0.75)

hc = sort(hc)

data <- data[,-c(hc)]}
Run Code Online (Sandbox Code Playgroud)

如果有人可以帮助我获取类似于上面提到的python pandas中的R命令的命令,那将很有帮助。

python r machine-learning pandas scikit-learn

-2
推荐指数
1
解决办法
4800
查看次数

标签 统计

pandas ×2

python ×2

r ×2

scikit-learn ×2

machine-learning ×1

numpy ×1