小编Wal*_*ace的帖子

R-按列名称将BIG表转换为矩阵

这是对现有问题的扩展:按列名将表转换为矩阵

我正在使用最终答案:https : //stackoverflow.com/a/2133898/1287275

原始CSV文件矩阵大约有150万行,其中包含三列...行索引,列索引和一个值。所有数字均为长整数。底层矩阵是大小约为220K x 220K的稀疏矩阵,每行平均约7个值。

原始的read.table可以正常工作。

  x <- read.table("/users/wallace/Hadoop_Local/reference/DiscoveryData6Mo.csv", header=TRUE);
Run Code Online (Sandbox Code Playgroud)

我执行reshape命令时出现问题。

  reshape(x, idvar="page_id", timevar="reco", direction="wide")
Run Code Online (Sandbox Code Playgroud)

CPU命中率达到100%,并且永远存在。机器(Mac)的内存比R正在使用的内存更多。我不明白为什么构造稀疏矩阵要花这么长时间。

我正在使用默认的矩阵包。我没有安装任何额外的东西。几天前我刚刚下载了R,所以我应该拥有最新版本。

有什么建议吗?

谢谢,华莱士

r sparse-matrix

5
推荐指数
1
解决办法
2635
查看次数

标签 统计

r ×1

sparse-matrix ×1