我正在使用dplyr来操作一个数据帧,该数据帧与我使用的较小测试集一起工作正常.使用大型完整数据集(8个变量为845986 obs),遗憾的是,在具有16 GB RAM的计算机上内存不足.
数据框的相关部分:
> head(df)
V2 name
1 1 A_185
2 8 A_185
3 17 A_185
4 25 A_185
5 33 A_185
6 1 A_123
7 5 A_123
8 13 A_123
9 23 A_123
Run Code Online (Sandbox Code Playgroud)
我正在创建一个新的列id2,它应该包含一个基于V2列的连续序列,并且依赖于name列,例如,对于一个不同的名称,序列必须重新开始.
结果应该是:
> head(df)
V2 name id2
1 1 A_185 1
2 8 A_185 2
3 17 A_185 3
4 25 A_185 4
5 33 A_185 5
6 1 A_123 1
7 5 A_123 2
8 13 A_123 3
9 23 A_123 4
Run Code Online (Sandbox Code Playgroud)
我使用的代码是: …