小编Del*_*ine的帖子

处理相关性计算的缺失值

我有一个巨大的矩阵,有很多缺失值.我想获得变量之间的相关性.

1.解决方案

cor(na.omit(matrix))
Run Code Online (Sandbox Code Playgroud)

比下面好吗?

cor(matrix, use = "pairwise.complete.obs")
Run Code Online (Sandbox Code Playgroud)

我已经选择了只有超过20%缺失值的变量.

2.哪种方法最有意义?

r missing-data correlation na

30
推荐指数
3
解决办法
7万
查看次数

生成用于交叉验证的集合

如何使用R自动拆分矩阵进行5倍交叉验证?我实际上想要生成5组(test_matrix_indices,train matrix_indices).

r

13
推荐指数
2
解决办法
2万
查看次数

按行方式替换NA值

我想从以下获取的矩阵中替换我的NA值:

read.table(…)
Run Code Online (Sandbox Code Playgroud)

这些值应该是相应行的平均值.

即,表格的以下行:

1 2 1 NA 2 1 1 2
Run Code Online (Sandbox Code Playgroud)

会成为

1 2 1 1.43 2 1 2
Run Code Online (Sandbox Code Playgroud)

谢谢.

r

10
推荐指数
2
解决办法
8928
查看次数

K-means具有非常大的矩阵

我必须在一个非常庞大的矩阵上执行k-means聚类(大约300.000x100.000值超过100Gb).我想知道我是否可以使用R软件来执行此操作或weka.我的计算机是一个多处理器,具有8Gb的RAM和数百Gb的可用空间.

我有足够的空间进行计算,但加载这样的矩阵似乎是R的一个问题(我不认为使用bigmemory包会帮助我和大矩阵自动使用我的所有RAM然后我的交换文件,如果没有足够的空间).

所以我的问题是:我应该使用什么软件(最终与其他一些软件包或自定义设置相关联).

谢谢你的帮助.

注意:我使用linux.

r cluster-analysis weka k-means mahout

9
推荐指数
1
解决办法
5687
查看次数

r中的导出矩阵

我想在R中导出一个矩阵(并保留我的行和列的名称).当我使用write.table或write.csv时,我得到一个带有新列的矩阵.我该如何使用此功能.

谢谢您的帮助.

r

7
推荐指数
1
解决办法
2万
查看次数

删除缺少值的列

我有一个包含大量colums的表,我想删除超过500个缺失值的列.

我已经知道每列缺失值的数量:

library(fields)
t(stats(mm))
Run Code Online (Sandbox Code Playgroud)

我有 :

  N     mean  Std.Dev.    min       Q1  median       Q3 max missing values
V1 1600 8.67  …                                               400
Run Code Online (Sandbox Code Playgroud)

有些列显示所有特征的NA:

      N     mean  Std.Dev.    min       Q1  median       Q3 max missing values
 V50  NA    NA      NA         NA        NA                   NA
Run Code Online (Sandbox Code Playgroud)

我也想删除这些列.

r

6
推荐指数
3
解决办法
1万
查看次数

使用open csv获取.csv的内容

如何使用openCSV获取和显示csv的某些行.我目前有以下代码:

CSVReader reader1 = new CSVReader(new FileReader(mydata_csv.getpath()));
List myDatas = reader1.readAll();
Run Code Online (Sandbox Code Playgroud)

如何显示一个特定的行?

也许我可以使用更好的方式来存储我的数据(csv包含数百个变量的行).任何建议都会受到欢迎.

java opencsv

1
推荐指数
1
解决办法
3524
查看次数

随机抽样

我想知道如何使用大量真实随机数(使用量子生成器获得)实现在R中较大样本中获取随机子样本的方法,这些是可能有多次出现的整数.

__

编辑:解决方案.

由于我需要一个remise并且我在float64中生成的数字最终是唯一的(由于高精度),我使用了以下解决方案:

1)生成与长度(数据)一样多的数字

2)

temp<-cbind(data,randomnb)
randomizeddata<-res[order(res[,2])]
Run Code Online (Sandbox Code Playgroud)

3)拆分数据集

r random-sample

0
推荐指数
1
解决办法
2911
查看次数