我有以下数据帧:
a a a b c c d e a a b b b e e d d
Run Code Online (Sandbox Code Playgroud)
所需的结果应该是
a b c d e a b e d
Run Code Online (Sandbox Code Playgroud)
这意味着没有两个连续的行应该具有相同的值.如何在不使用循环的情况下完成.
由于我的数据集非常庞大,因此循环需要花费大量时间来执行.
数据帧结构如下所示
a 1
a 2
a 3
b 2
c 4
c 1
d 3
e 9
a 4
a 8
b 10
b 199
e 2
e 5
d 4
d 10
Run Code Online (Sandbox Code Playgroud)
结果:
a 1
b 2
c 4
d 3
e 9
a 4
b 10 …
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用XGBoost技术进行预测.由于我的因变量是连续的,我使用XGBoost进行回归,但是各种门户中可用的大多数参考都是用于分类.虽然我知道通过使用
objective = "reg:linear"
Run Code Online (Sandbox Code Playgroud)
我们可以进行回归,但我仍然需要对其他参数进行一些清晰度.如果有人可以提供R片段,这将是一个很大的帮助.
我正在使用渐变增强进行分类.虽然结果有所改善,但我在有效率方面获得了NaN.
Model = gbm.fit(
x= x_Train ,
y = y_Train ,
distribution = "bernoulli",
n.trees = GBM_NTREES ,
shrinkage = GBM_SHRINKAGE ,
interaction.depth = GBM_DEPTH ,
n.minobsinnode = GBM_MINOBS ,
verbose = TRUE
)
Run Code Online (Sandbox Code Playgroud)
结果
如何调整参数以获得有效的参数.
假设我的 cSPADE 输出类似于以下内容,如何防止单节点。因为我更关心获得两个或多个元素之间的模式。无论如何我可以输入最小长度吗?
sequence support
1 <{A}> 1.00
2 <{B}> 1.00
3 <{D}> 0.50
4 <{F}> 1.00
**5 <{A,F}> 0.75
6 <{B,F}> 1.00
7 <{D},{F}> 0.50
8 <{D},{B,F}> 0.50**
Run Code Online (Sandbox Code Playgroud) 我的数据集如下所示
John
Tally
mac
hero
Run Code Online (Sandbox Code Playgroud)
我想删除以""开头的字符串
所以结果变量是
John
Tally
hero
Run Code Online (Sandbox Code Playgroud)
我用过
library(stringr)
which(startsWith(names[,1]," "))
Run Code Online (Sandbox Code Playgroud)
得到""的行
请帮我以任何有效的方式删除它?
假设我的数据集如下:
John NA kaira
carry John NA
maya Sam maya
leo paty leo
tinker NA tinker
fabo leo maya
Run Code Online (Sandbox Code Playgroud)
我有另一个数据集:
John 1
carry 2
maya 3
leo 4
tinker 5
fabo 6
sam 7
paty 8
kaira 9
Run Code Online (Sandbox Code Playgroud)
我想将上表(df2)的值与第一个表(df1)匹配,所以我的最终表(df)如下所示:
1 NA 9
2 1 NA
3 7 3
4 8 4
5 NA 5
6 4 3
Run Code Online (Sandbox Code Playgroud)