小编Ama*_*eet的帖子

按顺序删除/折叠连续的重复值

我有以下数据帧:

a a a b c c d e a a b b b e e d d
Run Code Online (Sandbox Code Playgroud)

所需的结果应该是

a b c d e a b e d 
Run Code Online (Sandbox Code Playgroud)

这意味着没有两个连续的行应该具有相同的值.如何在不使用循环的情况下完成.

由于我的数据集非常庞大,因此循环需要花费大量时间来执行.

数据帧结构如下所示

a 1 
a 2
a 3
b 2
c 4
c 1
d 3
e 9
a 4
a 8
b 10
b 199
e 2
e 5
d 4
d 10
Run Code Online (Sandbox Code Playgroud)

结果:

a 1 
b 2
c 4
d 3
e 9
a 4
b 10 …
Run Code Online (Sandbox Code Playgroud)

loops r lag apply

16
推荐指数
3
解决办法
5907
查看次数

如何在R中使用XGBoost算法进行回归?

我正在尝试使用XGBoost技术进行预测.由于我的因变量是连续的,我使用XGBoost进行回归,但是各种门户中可用的大多数参考都是用于分类.虽然我知道通过使用

objective = "reg:linear"
Run Code Online (Sandbox Code Playgroud)

我们可以进行回归,但我仍然需要对其他参数进行一些清晰度.如果有人可以提供R片段​​,这将是一个很大的帮助.

r machine-learning gbm boosting xgboost

13
推荐指数
1
解决办法
3万
查看次数

对于GBM模型,"有效的偏差"是纳米,这意味着什么以及如何摆脱这种情况?

我正在使用渐变增强进行分类.虽然结果有所改善,但我在有效率方面获得了NaN.

Model = gbm.fit(
  x= x_Train ,
  y = y_Train ,
  distribution = "bernoulli",
  n.trees = GBM_NTREES ,
  shrinkage = GBM_SHRINKAGE ,
  interaction.depth = GBM_DEPTH ,
  n.minobsinnode = GBM_MINOBS ,
  verbose = TRUE
  )
Run Code Online (Sandbox Code Playgroud)

结果

在此输入图像描述

如何调整参数以获得有效的参数.

r machine-learning gbm boosting xgboost

7
推荐指数
1
解决办法
3034
查看次数

我如何使用 R 编程在 cSPADE 中使用序列的最小长度

假设我的 cSPADE 输出类似于以下内容,如何防止单节点。因为我更关心获得两个或多个元素之间的模式。无论如何我可以输入最小长度吗?

          sequence support
1            <{A}>    1.00
2            <{B}>    1.00
3            <{D}>    0.50
4            <{F}>    1.00
**5          <{A,F}>    0.75
6          <{B,F}>    1.00
7        <{D},{F}>    0.50
8      <{D},{B,F}>    0.50**
Run Code Online (Sandbox Code Playgroud)

analytics r pattern-matching sequential

3
推荐指数
1
解决办法
658
查看次数

如何删除一行,其中包含以空格开头的字符串?

我的数据集如下所示

John
Tally
 mac
hero
Run Code Online (Sandbox Code Playgroud)

我想删除以""开头的字符串

所以结果变量是

John
Tally
hero
Run Code Online (Sandbox Code Playgroud)

我用过

library(stringr)
which(startsWith(names[,1]," "))
Run Code Online (Sandbox Code Playgroud)

得到""的行

请帮我以任何有效的方式删除它?

r stringr

3
推荐指数
1
解决办法
67
查看次数

匹配和替换R中数据框中的操作

假设我的数据集如下:

John   NA    kaira   
carry  John  NA
maya   Sam   maya
leo    paty  leo
tinker NA    tinker
fabo   leo   maya
Run Code Online (Sandbox Code Playgroud)

我有另一个数据集:

John   1
carry  2
maya   3
leo    4
tinker 5
fabo   6
sam    7
paty   8 
kaira  9
Run Code Online (Sandbox Code Playgroud)

我想将上表(df2)的值与第一个表(df1)匹配,所以我的最终表(df)如下所示:

1   NA   9   
2   1    NA
3   7    3
4   8    4
5   NA   5
6   4    3
Run Code Online (Sandbox Code Playgroud)

replace r pattern-matching match vlookup

1
推荐指数
1
解决办法
89
查看次数