Jor*_*ong 1 r data.table tidyverse
我有两个不同长度的数据帧。两个数据框都包含日期。我想内部加入最接近的日期列,而不用继续。例如,如果“ 2019-01-05”是日期,并且两个选项是“ 2019-01-06”和“ 2019-01-02”,则它与“ 2019-01-02”结合在一起。我尝试从data.table包中使用roll“ inf”,但没有得到想要的结果。这是我要按日期加入的2个玩具数据框。
我也想按行情栏对联接进行分组。在tidyverse中,代码类似于:
df1 %>% group_by(ticker) %>% inner_join(df2, by = "Date") #but choose the closest date without going over.
df1 = data.frame(ticker = c("AAPL", "AAPL", "MSFT", "MSFT"), date = c("2019-01-06", "2019-02-06", "2019-01-06", "2019-05-02"))
df2 = data.frame(ticker = c("AAPL", "AAPL", "AAPL", "MSFT", "MSFT", "MSFT"), date = c("2019-01-03", "2019-01-07" , "2019-02-06", "2019-01-05", "2019-01-07", "2019-05-02"), randomVar = rnorm(6))
print(df1)
ticker date
1 AAPL 2019-01-06
2 AAPL 2019-02-06
3 MSFT 2019-01-06
4 MSFT 2019-05-02
print(df2)
ticker date randomVar
1 AAPL 2019-01-03 -0.5321493
2 AAPL 2019-01-07 -0.7909461
3 AAPL 2019-02-06 0.2121993
4 MSFT 2019-01-05 1.2336315
5 MSFT 2019-01-07 -0.2729354
6 MSFT 2019-05-02 -0.5349596
Run Code Online (Sandbox Code Playgroud)
我想创建df3,这是df1和df2之间的联接。日期键列只能是df1日期列中的键。
在这种情况下,我们的新df3应该看起来像这样。
print(df3)
ticker date randomVar
1 AAPL 2019-01-06 -0.5321493
2 AAPL 2019-02-06 0.2121993
3 MSFT 2019-01-06 1.2336315
4 MSFT 2019-05-02 -0.5349596
Run Code Online (Sandbox Code Playgroud)
已经有一个可接受的答案,但是由于存在data.table标签,因此可以采用以下data.table解决方案:
#convert sample data to data.table
setDT(df1)
setDT(df2)
#convert dates to 'real' dates
df1[, date := as.IDate(date) ]
df2[, date := as.IDate(date) ]
#update df1 by reference with a rolling join
df1[, randomVar := df2[ df1, x.randomVar, on = .(ticker, date), roll = Inf ] ]
# ticker date randomVar
# 1: AAPL 2019-01-06 -0.5321493
# 2: AAPL 2019-02-06 0.2121993
# 3: MSFT 2019-01-06 1.2336315
# 4: MSFT 2019-05-02 -0.5349596
Run Code Online (Sandbox Code Playgroud)
这可以在 SQL 中使用默认 SQLite 后端在股票代码上使用左连接完成,并且在 df2 日期小于或等于 df1 日期,然后在 df1 上分组并从加入到 df1 的那些的 df2 中获取最大日期。
library(sqldf)
sqldf("select df1.*, max(df2.date), df2.randomVar from df1
left join df2 on df1.ticker = df2.ticker and df1.date >= df2.date
group by df1.rowid
order by df1.rowid")[-3]
Run Code Online (Sandbox Code Playgroud)
给予:
ticker date randomVar
1 AAPL 2019-01-06 -0.5321493
2 AAPL 2019-02-06 0.2121993
3 MSFT 2019-01-06 1.2336315
4 MSFT 2019-05-02 -0.5349596
Run Code Online (Sandbox Code Playgroud)
可复制形式的输入:
Lines1 <- "ticker date
1 AAPL 2019-01-06
2 AAPL 2019-02-06
3 MSFT 2019-01-06
4 MSFT 2019-05-02"
Lines2 <- "ticker date randomVar
1 AAPL 2019-01-03 -0.5321493
2 AAPL 2019-01-07 -0.7909461
3 AAPL 2019-02-06 0.2121993
4 MSFT 2019-01-05 1.2336315
5 MSFT 2019-01-07 -0.2729354
6 MSFT 2019-05-02 -0.5349596"
df1 <- read.table(text = Lines1, as.is = TRUE)
df2 <- read.table(text = Lines2, as.is = TRUE)
Run Code Online (Sandbox Code Playgroud)