我有一个包含数千列的大型数据集。列名包括各种不需要的字符,如下所示:
col1_3x_xxx
col2_3y_xyz
col3_3z_zyx
Run Code Online (Sandbox Code Playgroud)
我想从所有列名中删除以“ _3”开头的所有字符串,使其保持干净:
col1
col2
col3
Run Code Online (Sandbox Code Playgroud)
对于5000+列,最有效的方法是什么?
我想创建一个新列,以按顺序标记行组。原始数据:
> dt = data.table(index=(1:10), group = c("apple","apple","orange","orange","orange","orange","apple","apple","orange","apple"))
> dt
index group
1: 1 apple
2: 2 apple
3: 3 orange
4: 4 orange
5: 5 orange
6: 6 orange
7: 7 apple
8: 8 apple
9: 9 orange
10: 10 apple
Run Code Online (Sandbox Code Playgroud)
所需的输出:
index group id
1: 1 apple 1
2: 2 apple 1
3: 3 orange 1
4: 4 orange 1
5: 5 orange 1
6: 6 orange 1
7: 7 apple 2
8: 8 apple 2
9: 9 …Run Code Online (Sandbox Code Playgroud) 我有 20 分钟的观察数据,按 5 分钟分箱排列,如下所示:
bin var1 var2 var3 var4
5 -76.30 71.96 557.79 0.06
10 -61.23 78.14 600.69 0.09
15 -54.36 73.63 630.71 0.03
20 -12.41 71.46 661.19 0.08
Run Code Online (Sandbox Code Playgroud)
我需要通过向前移动最后一个观察值来对一小时的数据进行建模,并获得以下输出:
bin var1 var2 var3 var4
5 -76.30 71.96 557.79 0.06
10 -61.23 78.14 600.69 0.03
15 -54.36 73.63 630.71 0.09
20 -12.41 71.46 661.19 0.08
25 -12.41 71.46 661.19 0.08
30 -12.41 71.46 661.19 0.08
35 -12.41 71.46 661.19 0.08
40 -12.41 71.46 661.19 0.08
45 -12.41 71.46 661.19 …Run Code Online (Sandbox Code Playgroud) 我正在寻找一种最有效的方法来识别/提取超出CI阴影的数据点,如下所示:
ggplot(df,aes(x,y))+geom_point()+
stat_smooth(method = "lm", formula = y~poly(x, 2), size = 1, se = T, level = 0.99)
Run Code Online (Sandbox Code Playgroud)

我希望能够保存一个新变量,该变量标记出的数据点如下:
x y group
1: 0.0 0.00 1
2: 0.5 0.40 1
3: 0.9 0.70 1
4: 1.0 1.30 1
5: 2.0 6.60 0
6: 3.0 3.10 1
7: 4.0 4.40 1
8: 5.0 5.90 1
9: 6.0 6.05 1
10: 7.0 7.60 1
11: 8.0 8.00 1
12: 9.0 2.90 0
13: 10.0 13.80 1
14: 11.0 13.40 1
15: 12.0 …Run Code Online (Sandbox Code Playgroud)