小编3im*_*m0n的帖子

dpylr - 变异与seq_along内存发出大数据集

我正在使用dplyr来操作一个数据帧,该数据帧与我使用的较小测试集一起工作正常.使用大型完整数据集(8个变量为845986 obs),遗憾的是,在具有16 GB RAM的计算机上内存不足.

数据框的相关部分:

> head(df)
   V2   name
 1  1   A_185
 2  8   A_185
 3 17   A_185
 4 25   A_185
 5 33   A_185
 6  1   A_123
 7  5   A_123
 8 13   A_123
 9 23   A_123
Run Code Online (Sandbox Code Playgroud)

我正在创建一个新的列id2,它应该包含一个基于V2列的连续序列,并且依赖于name列,例如,对于一个不同的名称,序列必须重新开始.

结果应该是:

> head(df)
  V2   name   id2
1  1   A_185  1
2  8   A_185  2
3 17   A_185  3
4 25   A_185  4
5 33   A_185  5
6  1   A_123  1
7  5   A_123  2 
8 13   A_123  3
9 23   A_123  4
Run Code Online (Sandbox Code Playgroud)

我使用的代码是: …

r plyr dplyr

2
推荐指数
1
解决办法
173
查看次数

标签 统计

dplyr ×1

plyr ×1

r ×1