小编pyn*_*yne的帖子

r删除某些字符后的列名称部分

我有一个包含数千列的大型数据集。列名包括各种不需要的字符,如下所示:

col1_3x_xxx
col2_3y_xyz
col3_3z_zyx
Run Code Online (Sandbox Code Playgroud)

我想从所有列名中删除以“ _3”开头的所有字符串,使其保持干净:

col1
col2
col3
Run Code Online (Sandbox Code Playgroud)

对于5000+列,最有效的方法是什么?

r

6
推荐指数
3
解决办法
2万
查看次数

R中行的有序分组

我想创建一个新列,以按顺序标记行组。原始数据:

> dt = data.table(index=(1:10), group = c("apple","apple","orange","orange","orange","orange","apple","apple","orange","apple"))
> dt
    index  group
 1:     1  apple
 2:     2  apple
 3:     3 orange
 4:     4 orange
 5:     5 orange
 6:     6 orange
 7:     7  apple
 8:     8  apple
 9:     9 orange
10:    10  apple
Run Code Online (Sandbox Code Playgroud)

所需的输出:

    index  group id
 1:     1  apple  1
 2:     2  apple  1
 3:     3 orange  1
 4:     4 orange  1
 5:     5 orange  1
 6:     6 orange  1
 7:     7  apple  2
 8:     8  apple  2
 9:     9 …
Run Code Online (Sandbox Code Playgroud)

r dplyr data.table

4
推荐指数
1
解决办法
85
查看次数

pandas 中结转的最后一个值

我有 20 分钟的观察数据,按 5 分钟分箱排列,如下所示:

  bin   var1    var2    var3    var4
    5   -76.30  71.96   557.79  0.06
    10  -61.23  78.14   600.69  0.09
    15  -54.36  73.63   630.71  0.03
    20  -12.41  71.46   661.19  0.08
Run Code Online (Sandbox Code Playgroud)

我需要通过向前移动最后一个观察值来对一小时的数据进行建模,并获得以下输出:

bin var1    var2    var3    var4
5   -76.30  71.96   557.79  0.06
10  -61.23  78.14   600.69  0.03
15  -54.36  73.63   630.71  0.09
20  -12.41  71.46   661.19  0.08
25  -12.41  71.46   661.19  0.08
30  -12.41  71.46   661.19  0.08
35  -12.41  71.46   661.19  0.08
40  -12.41  71.46   661.19  0.08
45  -12.41  71.46   661.19 …
Run Code Online (Sandbox Code Playgroud)

python pandas

3
推荐指数
1
解决办法
3805
查看次数

识别相关图中位于CI之外的数据点

我正在寻找一种最有效的方法来识别/提取超出CI阴影的数据点,如下所示:

ggplot(df,aes(x,y))+geom_point()+
stat_smooth(method = "lm", formula = y~poly(x, 2), size = 1, se = T, level = 0.99)
Run Code Online (Sandbox Code Playgroud)

样本图

我希望能够保存一个新变量,该变量标记出的数据点如下:

    x     y      group
1:  0.0  0.00     1
2:  0.5  0.40     1
3:  0.9  0.70     1
4:  1.0  1.30     1
5:  2.0  6.60     0
6:  3.0  3.10     1
7:  4.0  4.40     1
8:  5.0  5.90     1
9:  6.0  6.05     1
10: 7.0  7.60     1
11: 8.0  8.00     1
12: 9.0  2.90     0
13: 10.0 13.80    1
14: 11.0 13.40    1
15: 12.0 …
Run Code Online (Sandbox Code Playgroud)

r ggplot2

2
推荐指数
1
解决办法
506
查看次数

标签 统计

r ×3

data.table ×1

dplyr ×1

ggplot2 ×1

pandas ×1

python ×1