我正在尝试使用包含分组数据的na.locf包.我在这个问题上使用第一个解决方案:使用dplyr窗口函数来设置尾随值(填写NA值)zoodplyr
library(dplyr);library(zoo)
df1 <- data.frame(id=rep(c("A","B"),each=3),problem=c(1,NA,2,NA,NA,NA),ok=c(NA,3,4,5,6,NA))
df1
id problem ok
1 A 1 NA
2 A NA 3
3 A 2 4
4 B NA 5
5 B NA 6
6 B NA NA
Run Code Online (Sandbox Code Playgroud)
当在一个组内,所有数据都是NA时,就会出现问题.正如您在问题列中看到的那样na.locf,id = B 的数据来自另一个组:id = A的最后一个数据.
df1 %>% group_by(id) %>% na.locf()
Source: local data frame [6 x 3]
Groups: id [2]
id problem ok
<chr> <chr> <chr>
1 A 1 <NA>
2 A 1 3
3 A 2 4
4 B 2 5 #problem col is wrong
5 B 2 6 #problem col is wrong
6 B 2 6 #problem col is wrong
Run Code Online (Sandbox Code Playgroud)
这是我的预期结果.id = B的数据与id = A中的数据无关
id problem ok
<chr> <chr> <chr>
1 A 1 <NA>
2 A 1 3
3 A 2 4
4 B NA 5
5 B NA 6
6 B NA 6
Run Code Online (Sandbox Code Playgroud)
akr*_*run 10
我们需要在na.locf内部使用,mutate_all因为na.locf可以直接应用于数据集.尽管它按"id"分组,但na.locf通过应用完整数据集进行应用并不遵循任何按行为分组
df1 %>%
group_by(id) %>%
mutate_all(funs(na.locf(., na.rm = FALSE)))
# id problem ok
# <fctr> <dbl> <dbl>
#1 A 1 NA
#2 A 1 3
#3 A 2 4
#4 B NA 5
#5 B NA 6
#6 B NA 6
Run Code Online (Sandbox Code Playgroud)