我正在尝试使用data.frameR 中的两个不同绘制折线图plotly。问题是两者data.frame都有不同的维度。data.frame1 的示例数据:
DATE SOC resdiff
2016 2017-08-11 02:40:00 95.45 0.54
4033 2017-08-18 02:45:00 94.88 0.56
6048 2017-08-25 02:45:00 94.28 0.60
8064 2017-09-01 02:45:00 93.68 0.60
10080 2017-09-08 02:45:00 92.96 0.72
12096 2017-09-15 02:45:00 92.13 0.83
Run Code Online (Sandbox Code Playgroud)
data.frame2 的样本数据:
data.event_type data.user data.stamp
1 config *INST* 2018-06-27 14:37:29
2 config *INST* 2018-02-14 19:30:57
3 config *SYNC* 2017-12-18 07:00:53
4 config *SYNC* 2017-12-18 06:59:14
5 config *INST* 2017-10-03 00:55:25
6 config *INST* 2017-09-28 00:49:29 …Run Code Online (Sandbox Code Playgroud) 我试图解决这个非常基本的例子并尝试提取以下数据:
count SN data.stamp
1 00601 2018-07-26 13:38:39
0 00601 2018-11-05 23:00:09
0 00601 2018-11-05 23:00:16
4 00601 2018-11-12 23:00:05
0 00601 2018-12-12 23:00:05
5 00601 2018-11-12 23:00:05
0 00601 2018-12-12 23:00:05
0 00601 2018-11-12 23:00:05
0 00601 2018-12-12 23:00:05
Run Code Online (Sandbox Code Playgroud)
预期产量:
count SN data.stamp
1 00601 2018-07-26 13:38:39
0 00601 2018-11-05 23:00:09
4 00601 2018-11-12 23:00:05
0 00601 2018-12-12 23:00:05
5 00601 2018-11-12 23:00:05
0 00601 2018-12-12 23:00:05
Run Code Online (Sandbox Code Playgroud)
我想只考虑单0值计数.如果有多个0值计数,那么它应该只考虑第一个值并忽略其余的0计数.
基本上,我只寻找第一个零值,然后是非零值.
我尝试过使用,rle但我想从中提取数据data.frame …
基本上,我有一个初始data.frame,我使用参与者的名字作为row.names.由于各种原因,我不得不堆叠,然后以长格式合并数据,然后基于因子变量,我只选择了一部分数据.然后我聚合了这个,所以我再次获得广泛的数据,参与者为row.names.但是,顺序不一样.因此,如果我想要cbind使用新数据的原始宽数据,它将使我的数据混乱,因为顺序row.names是不同的.我试过sort(),order(),transform()和读几个问题,但我找不到这样做的一种方式.
DF1
> V1 V2 V3
> AAA 24 22 37
> BBB 21 22 33
> CCC 30 32 38
> DDD 21 23 35
Run Code Online (Sandbox Code Playgroud)
另一个数据框具有相同的dim()但不同的row.names顺序.
DF2 row.names
> BBB
> CCC
> AAA
> DDD
Run Code Online (Sandbox Code Playgroud)
我想DF1基于rownames(DF2)变量进行排序,以便变量与rownames保持一致,因此我可以cbind (D1, D2)因为rownames相同,所以同一个变量将属于同一个参与者.我可能过于复杂了,抱歉:)
基本上,我想data.frame(DF1)基于rownames 重新排序整个DF2.
我知道这是一个蹩脚的问题,但我找不到合适的答案.
目前,我正在使用h2o.ai和对机器学习库进行调查SparkMLlib。我已经确定,h2o.ai与 相比SparkMLlib,库支持更多 ML 算法,并且将 Spark 数据帧划分到训练和测试集似乎很困难(需要将 Spark 数据帧转换为 R/h2o 数据帧,这也是时间/资源消耗)。
使用h2o.ai库的其他优点/缺点是什么,SparkMLib反之亦然?我注重h2o.ai和SparkMLlib成的R执行(SparkR)。所以 h2o(as.h2o)和 SparkMLlib的数据帧(as.DataFrame)是不同的。