通过指数填写R中的大量NA数据?

ejn*_*ejn 4 r missing-data na

我根据三件事索引价格数据:

状态,日期和UPC(即产品代码).

我有一堆NA的价格.

我试图通过以下方式填充NA:对于具有索引(S,D,UPC)的给定缺失价格,使用相同的S和UPC填写所有数据点的平均价格.即,取平均日期.

必须有一种非常简单的方法来做到这一点,因为这非常简单.我一直在使用for循环,但我现在意识到这是非常低效的,我想使用一个函数,比如plyr或dplyr中的函数,它将尽可能少地完成所有操作.

upc=c(1153801013,1153801013,1153801013,1153801013,1153801013,1153801013,2105900750,2105900750,2105900750,2105900750,2105900750,2173300001,2173300001,2173300001,2173300001)
date=c(200601,200602,200603,200604,200601,200602,200601,200602,200603,200601,200602,200603,200604,200605,200606)
price=c(26,28,NA,NA,23,24,85,84,NA,81,78,24,19,98,NA)
state=c(1,1,1,1,2,2,1,1,2,2,2,1,1,1,1)

# This is what I have:
data <- data.frame(upc,date,state,price)

# This is what I want:
price=c(26,28,27,27,23,24,85,84,79.5,81,78,24,19,98,47)
data2 <- data.frame(upc,date,state,price)
Run Code Online (Sandbox Code Playgroud)

有什么建议?谢谢.

the*_*ail 8

使用ave多个分组变量,然后NA使用以下方法替换值:

with(data,
  ave(price, list(upc,state), FUN=function(x) replace(x,is.na(x),mean(x,na.rm=TRUE) ) )
)
# [1] 26.0 28.0 27.0 27.0 23.0 24.0 85.0 84.0 79.5 81.0 78.0 24.0 19.0 98.0 47.0
Run Code Online (Sandbox Code Playgroud)


42-*_*42- 6

您可以通过upc和state构建一个均值矩阵:

meanmtx <- tapply(dat$price, dat[c('upc','state')], mean, na.rm=TRUE)
Run Code Online (Sandbox Code Playgroud)

这矩阵具有可在被匹配到值字符索引upcstate.那么然后使用2列字符索引将它们放在空的"槽"中:

dat$price[is.na(dat$price)] <-  
          meanmtx[  cbind( as.character(dat[  is.na(dat$price), 'upc']), 
                           as.character(dat[  is.na(dat$price),'state']) )  ]

> dat
          upc   date state price
1  1153801013 200601     1  26.0
2  1153801013 200602     1  28.0
3  1153801013 200603     1  27.0
4  1153801013 200604     1  27.0
5  1153801013 200601     2  23.0
6  1153801013 200602     2  24.0
7  2105900750 200601     1  85.0
8  2105900750 200602     1  84.0
9  2105900750 200603     2  79.5
10 2105900750 200601     2  81.0
11 2105900750 200602     2  78.0
12 2173300001 200603     1  24.0
13 2173300001 200604     1  19.0
14 2173300001 200605     1  98.0
15 2173300001 200606     1  47.0
Run Code Online (Sandbox Code Playgroud)