Jen*_*ler 7 r time-series linear-interpolation tidyverse tidyverts
在 R 中搜索时间序列数据的线性插值时,我经常na.approx()从zoo包中找到要使用的建议。
然而,对于不规则的时间序列,我遇到了问题,因为插值在间隙数量上均匀分布,没有考虑该值的关联时间戳。
我找到了一个围绕使用的解决方案approxfun(),但我想知道是否有一个更干净的解决方案,最好基于tsibble具有tidyverts包系列函数的对象?
以前的答案依赖于通过填补空白将不规则日期网格扩展为规则网格。然而,当插值期间应考虑白天时,这会导致问题。
这是一个(修订后的)最小示例,其中包含 POSIXct 时间戳而不是仅日期:
library(tidyverse)
library(zoo)
df <- tibble(date = as.POSIXct(c("2000-01-01 00:00", "2000-01-02 02:00", "2000-01-05 00:00")),
value = c(1,NA,2))
df %>%
mutate(value_int_wrong = na.approx(value),
value_int_correct = approxfun(date, value)(date))
# A tibble: 3 x 4
date value value_int_wrong value_int_correct
<dttm> <dbl> <dbl> <dbl>
1 2000-01-01 00:00:00 1 1 1
2 2000-01-02 02:00:00 NA 1.5 1.27
3 2000-01-05 00:00:00 2 2 2
Run Code Online (Sandbox Code Playgroud)
有什么想法如何(有效)处理这个问题吗?感谢您的支持!
这是一个等效的基于 tsibble 的解决方案。该interpolate()函数需要一个模型,但您可以使用随机游走在点之间给出线性插值。
library(tidyverse)
library(tsibble)
library(fable)
#> Loading required package: fabletools
df <- tibble(
date = as.Date(c("2000-01-01", "2000-01-02", "2000-01-05", "2000-01-06")),
value = c(1, NA, 2, 1.5)
) %>%
as_tsibble(index = date) %>%
fill_gaps()
df %>%
model(naive = ARIMA(value ~ -1 + pdq(0,1,0) + PDQ(0,0,0))) %>%
interpolate(df)
#> # A tsibble: 6 x 2 [1D]
#> date value
#> <date> <dbl>
#> 1 2000-01-01 1
#> 2 2000-01-02 1.25
#> 3 2000-01-03 1.5
#> 4 2000-01-04 1.75
#> 5 2000-01-05 2
#> 6 2000-01-06 1.5
Run Code Online (Sandbox Code Playgroud)
由reprex 包(v0.3.0)于 2020-04-08 创建
就我个人而言,我会选择您正在使用的解决方案,但为了展示如何na.approx在这种情况下使用,我们可以complete在使用之前按日期顺序排列na.approx并将其与原始df数据连接以保留原始行。
library(dplyr)
df %>%
tidyr::complete(date = seq(min(date), max(date), by = "day")) %>%
mutate(value_int = zoo::na.approx(value)) %>%
right_join(df, by = "date") %>%
select(date, value_int)
# date value_int
# <date> <dbl>
#1 2000-01-01 1
#2 2000-01-02 1.25
#3 2000-01-05 2
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2148 次 |
| 最近记录: |