我有一个巨大的矩阵,有很多缺失值.我想获得变量之间的相关性.
1.解决方案
cor(na.omit(matrix))
Run Code Online (Sandbox Code Playgroud)
比下面好吗?
cor(matrix, use = "pairwise.complete.obs")
Run Code Online (Sandbox Code Playgroud)
我已经选择了只有超过20%缺失值的变量.
2.哪种方法最有意义?
如何使用R自动拆分矩阵进行5倍交叉验证?我实际上想要生成5组(test_matrix_indices,train matrix_indices).
我想从以下获取的矩阵中替换我的NA值:
read.table(…)
Run Code Online (Sandbox Code Playgroud)
这些值应该是相应行的平均值.
即,表格的以下行:
1 2 1 NA 2 1 1 2
Run Code Online (Sandbox Code Playgroud)
会成为
1 2 1 1.43 2 1 2
Run Code Online (Sandbox Code Playgroud)
谢谢.
我必须在一个非常庞大的矩阵上执行k-means聚类(大约300.000x100.000值超过100Gb).我想知道我是否可以使用R软件来执行此操作或weka.我的计算机是一个多处理器,具有8Gb的RAM和数百Gb的可用空间.
我有足够的空间进行计算,但加载这样的矩阵似乎是R的一个问题(我不认为使用bigmemory包会帮助我和大矩阵自动使用我的所有RAM然后我的交换文件,如果没有足够的空间).
所以我的问题是:我应该使用什么软件(最终与其他一些软件包或自定义设置相关联).
谢谢你的帮助.
注意:我使用linux.
我想在R中导出一个矩阵(并保留我的行和列的名称).当我使用write.table或write.csv时,我得到一个带有新列的矩阵.我该如何使用此功能.
谢谢您的帮助.
我有一个包含大量colums的表,我想删除超过500个缺失值的列.
我已经知道每列缺失值的数量:
library(fields)
t(stats(mm))
Run Code Online (Sandbox Code Playgroud)
我有 :
N mean Std.Dev. min Q1 median Q3 max missing values
V1 1600 8.67 … 400
Run Code Online (Sandbox Code Playgroud)
有些列显示所有特征的NA:
N mean Std.Dev. min Q1 median Q3 max missing values
V50 NA NA NA NA NA NA
Run Code Online (Sandbox Code Playgroud)
我也想删除这些列.
如何使用openCSV获取和显示csv的某些行.我目前有以下代码:
CSVReader reader1 = new CSVReader(new FileReader(mydata_csv.getpath()));
List myDatas = reader1.readAll();
Run Code Online (Sandbox Code Playgroud)
如何显示一个特定的行?
也许我可以使用更好的方式来存储我的数据(csv包含数百个变量的行).任何建议都会受到欢迎.
我想知道如何使用大量真实随机数(使用量子生成器获得)实现在R中较大样本中获取随机子样本的方法,这些是可能有多次出现的整数.
__
编辑:解决方案.
由于我需要一个remise并且我在float64中生成的数字最终是唯一的(由于高精度),我使用了以下解决方案:
1)生成与长度(数据)一样多的数字
2)
temp<-cbind(data,randomnb)
randomizeddata<-res[order(res[,2])]
Run Code Online (Sandbox Code Playgroud)
3)拆分数据集