小编pyn*_*yne的帖子

r删除某些字符后的列名称部分

我有一个包含数千列的大型数据集。列名包括各种不需要的字符，如下所示：

col1_3x_xxx
col2_3y_xyz
col3_3z_zyx

Run Code Online (Sandbox Code Playgroud)

我想从所有列名中删除以“ _3”开头的所有字符串，使其保持干净：

col1
col2
col3

Run Code Online (Sandbox Code Playgroud)

对于5000+列，最有效的方法是什么？

pyn*_*yne

2016 06-14

6
推荐指数

3
解决办法

2万
查看次数

R中行的有序分组

我想创建一个新列，以按顺序标记行组。原始数据：

> dt = data.table(index=(1:10), group = c("apple","apple","orange","orange","orange","orange","apple","apple","orange","apple"))
> dt
    index  group
 1:     1  apple
 2:     2  apple
 3:     3 orange
 4:     4 orange
 5:     5 orange
 6:     6 orange
 7:     7  apple
 8:     8  apple
 9:     9 orange
10:    10  apple

Run Code Online (Sandbox Code Playgroud)

所需的输出：

    index  group id
 1:     1  apple  1
 2:     2  apple  1
 3:     3 orange  1
 4:     4 orange  1
 5:     5 orange  1
 6:     6 orange  1
 7:     7  apple  2
 8:     8  apple  2
 9:     9 …

Run Code Online (Sandbox Code Playgroud)

r dplyr data.table

pyn*_*yne

lucky-day

4
推荐指数

1
解决办法

85
查看次数

pandas 中结转的最后一个值

我有 20 分钟的观察数据，按 5 分钟分箱排列，如下所示：

  bin   var1    var2    var3    var4
    5   -76.30  71.96   557.79  0.06
    10  -61.23  78.14   600.69  0.09
    15  -54.36  73.63   630.71  0.03
    20  -12.41  71.46   661.19  0.08

Run Code Online (Sandbox Code Playgroud)

我需要通过向前移动最后一个观察值来对一小时的数据进行建模，并获得以下输出：

bin var1    var2    var3    var4
5   -76.30  71.96   557.79  0.06
10  -61.23  78.14   600.69  0.03
15  -54.36  73.63   630.71  0.09
20  -12.41  71.46   661.19  0.08
25  -12.41  71.46   661.19  0.08
30  -12.41  71.46   661.19  0.08
35  -12.41  71.46   661.19  0.08
40  -12.41  71.46   661.19  0.08
45  -12.41  71.46   661.19 …

Run Code Online (Sandbox Code Playgroud)

python pandas

pyn*_*yne

lucky-day

3
推荐指数

1
解决办法

3805
查看次数

识别相关图中位于CI之外的数据点

我正在寻找一种最有效的方法来识别/提取超出CI阴影的数据点,如下所示:

ggplot(df,aes(x,y))+geom_point()+
stat_smooth(method = "lm", formula = y~poly(x, 2), size = 1, se = T, level = 0.99)

Run Code Online (Sandbox Code Playgroud)

样本图

我希望能够保存一个新变量,该变量标记出的数据点如下:

    x     y      group
1:  0.0  0.00     1
2:  0.5  0.40     1
3:  0.9  0.70     1
4:  1.0  1.30     1
5:  2.0  6.60     0
6:  3.0  3.10     1
7:  4.0  4.40     1
8:  5.0  5.90     1
9:  6.0  6.05     1
10: 7.0  7.60     1
11: 8.0  8.00     1
12: 9.0  2.90     0
13: 10.0 13.80    1
14: 11.0 13.40    1
15: 12.0 …

Run Code Online (Sandbox Code Playgroud)

r ggplot2

pyn*_*yne

2017 05-01

2
推荐指数

1
解决办法

506
查看次数