从不规则的时间序列创建定期的15分钟时间序列

Question

从不规则的时间序列创建定期的15分钟时间序列

我在csv文件中有一个不规则的时间序列(使用DateTime和RainfallValue)C:\SampleData.csv:


DateTime,RainInches
1/6/2000 11:59,0
1/6/2000 23:59,0.01
1/7/2000 11:59,0
1/13/2000 23:59,0
1/14/2000 0:00,0
1/14/2000 23:59,0
4/14/2000 3:07,0.01
4/14/2000 3:12,0.03
4/14/2000 3:19,0.01
12/31/2001 22:44,0
12/31/2001 22:59,0.07
12/31/2001 23:14,0
12/31/2001 23:29,0
12/31/2001 23:44,0.01
12/31/2001 23:59,0.01

Run Code Online (Sandbox Code Playgroud)

注意:不规则的时间步长可以是1分钟,15分钟,1小时等.此外,在所需的15分钟间隔内可能有多个观察结果.

我试图创建一个从2000-01-01到2001-12-31的常规15分钟时间序列,看起来应该是这样的:


2000-01-01 00:15:00 0.00
2000-01-01 00:30:00 0.00
2000-01-01 00:45:00 0.00
...
2001-12-31 23:30:00 0.01
2001-12-31 23:45:00 0.01

Run Code Online (Sandbox Code Playgroud)

注意:时间序列是规则的,间隔为15分钟,用0填充缺失数据.如果15分钟间隔内有多个数据点,则将它们相加.

这是我的代码:


library(zoo)
library(xts)

filename = "C:\\SampleData.csv"
ReadData <- read.zoo(filename, format = "%m/%d/%Y %H:%M", sep=",", tz="UTC", header=TRUE) # read .csv as a ZOO object
RawData <- aggregate(ReadData, index(ReadData), sum) # Merge duplicate time stamps and SUM the corresponding data (CAUTION)
RawDataSeries <- as.xts(RawData,order.by =index(RawData)) #convert to an XTS object

RegularTimes <- seq(as.POSIXct("2000-01-01 00:00:00", tz = "UTC"), as.POSIXct("2001-12-31 23:45:00", tz = "UTC"), by = 60*15)
BlankTimeSeries <- xts((rep(0,length(RegularTimes))),order.by = RegularTimes)

MergedTimeSeries <- merge(RawDataSeries,BlankTimeSeries)
TS_sum15min <- period.apply(MergedTimeSeries,endpoints(MergedTimeSeries, "minutes", 15), sum, na.rm = TRUE )

TS_align15min <- align.time( TS_sum15min [endpoints(TS_sum15min , "minutes", 15)], n=60*15)

Run Code Online (Sandbox Code Playgroud)

问题:输出时间序列TS_align15min:(a)具有重复的时间戳块(b)从1999开始(神秘地),如: C:\SampleData.csv整数,返回大小为k的所有子集(即每组具有k个唯一元素),总和为0 .

所以我给了面试官以下解决方案(我在GeekViewpoint上学习过).没有使用额外的空间,一切都在适当的地方完成等等.但当然,成本是TS_align15min解决方案中O(n ^ k)的高时间复杂度.

1999-12-31 19:15:00    0
1999-12-31 19:30:00    0
1999-12-31 19:45:00    0
1999-12-31 20:00:00    0
1999-12-31 20:15:00    0
1999-12-31 20:30:00    0

Run Code Online (Sandbox Code Playgroud)

但后来她强加了以下要求:

必须使用hashmap来减少时间复杂度
必须绝对 - 绝对 - 为一般情况提供时间复杂性
当k = 6时提示,O(n ^ 3)

她对时间复杂性的兴趣比什么都重要.

有谁知道满足新约束的解决方案？

编辑:

据推测,在正确的解决方案中,地图将存储输入的元素,然后地图将被用作查找表,就像在案例中一样C:\SampleData.csv.

当子集的大小为2(即TS_align15min)时,答案是微不足道的:循环并将所有元素加载到地图中.然后再次遍历输入,这次搜索地图C:\SampleData.csv,然后就是答案.据说这个微不足道的案例可以扩展到TS_align15min任何地方.

Answer 1

Dir*_*tel 17

xts扩展了动物园,动物园在其小插曲和文档中有大量的例子.
这是一个有效的例子.我想我过去做得更优雅了,但这就是我现在想出的全部内容:

R> twohours <- ISOdatetime(2012,05,02,9,0,0) + seq(0:7)*15*60
R> twohours
[1] "2012-05-02 09:15:00 GMT" "2012-05-02 09:30:00 GMT" 
[3] "2012-05-02 09:45:00 GMT" "2012-05-02 10:00:00 GMT" 
[5] "2012-05-02 10:15:00 GMT" "2012-05-02 10:30:00 GMT" 
[7] "2012-05-02 10:45:00 GMT" "2012-05-02 11:00:00 GMT"
R> set.seed(42)
R> observation <- xts(1:10, order.by=twohours[1]+cumsum(runif(10)*60*10))
R> observation
                           [,1]
2012-05-02 09:24:08.883625    1
2012-05-02 09:33:31.128874    2
2012-05-02 09:36:22.812594    3
2012-05-02 09:44:41.081170    4
2012-05-02 09:51:06.128481    5
2012-05-02 09:56:17.586051    6
2012-05-02 10:03:39.539040    7
2012-05-02 10:05:00.338998    8
2012-05-02 10:11:34.534372    9
2012-05-02 10:18:37.573243   10

Run Code Online (Sandbox Code Playgroud)

两个小时的时间网格,以及一些随机观察,留下一些细胞空,一些细胞填满.

R> to.minutes15(observation)[,4]
                           observation.Close
2012-05-02 09:24:08.883625                 1
2012-05-02 09:44:41.081170                 4
2012-05-02 09:56:17.586051                 6
2012-05-02 10:11:34.534372                 9
2012-05-02 10:18:37.573243                10

Run Code Online (Sandbox Code Playgroud)

这是一个15分钟的网格聚合但不在我们的时间网格上.

R> twoh <- xts(rep(NA,8), order.by=twohours)
R> twoh
                    [,1]
2012-05-02 09:15:00   NA
2012-05-02 09:30:00   NA
2012-05-02 09:45:00   NA
2012-05-02 10:00:00   NA
2012-05-02 10:15:00   NA
2012-05-02 10:30:00   NA
2012-05-02 10:45:00   NA
2012-05-02 11:00:00   NA

R> merge(twoh, observation)
                           twoh observation
2012-05-02 09:15:00.000000   NA          NA
2012-05-02 09:24:08.883625   NA           1
2012-05-02 09:30:00.000000   NA          NA
2012-05-02 09:33:31.128874   NA           2
2012-05-02 09:36:22.812594   NA           3
2012-05-02 09:44:41.081170   NA           4
2012-05-02 09:45:00.000000   NA          NA
2012-05-02 09:51:06.128481   NA           5
2012-05-02 09:56:17.586051   NA           6
2012-05-02 10:00:00.000000   NA          NA
2012-05-02 10:03:39.539040   NA           7
2012-05-02 10:05:00.338998   NA           8
2012-05-02 10:11:34.534372   NA           9
2012-05-02 10:15:00.000000   NA          NA
2012-05-02 10:18:37.573243   NA          10
2012-05-02 10:30:00.000000   NA          NA
2012-05-02 10:45:00.000000   NA          NA
2012-05-02 11:00:00.000000   NA          NA

Run Code Online (Sandbox Code Playgroud)

新的xts对象和合并的对象.现在na.locf()用来进行观察:

R> na.locf(merge(twoh, observation)[,2])
                           observation
2012-05-02 09:15:00.000000          NA
2012-05-02 09:24:08.883625           1
2012-05-02 09:30:00.000000           1
2012-05-02 09:33:31.128874           2
2012-05-02 09:36:22.812594           3
2012-05-02 09:44:41.081170           4
2012-05-02 09:45:00.000000           4
2012-05-02 09:51:06.128481           5
2012-05-02 09:56:17.586051           6
2012-05-02 10:00:00.000000           6
2012-05-02 10:03:39.539040           7
2012-05-02 10:05:00.338998           8
2012-05-02 10:11:34.534372           9
2012-05-02 10:15:00.000000           9
2012-05-02 10:18:37.573243          10
2012-05-02 10:30:00.000000          10
2012-05-02 10:45:00.000000          10
2012-05-02 11:00:00.000000          10

Run Code Online (Sandbox Code Playgroud)

然后我们可以再次合并为时间网格xts上的内部联接twoh:

R> merge(twoh, na.locf(merge(twoh, observation)[,2]), join="inner")[,2]
                    observation
2012-05-02 09:15:00          NA
2012-05-02 09:30:00           1
2012-05-02 09:45:00           4
2012-05-02 10:00:00           6
2012-05-02 10:15:00           9
2012-05-02 10:30:00          10
2012-05-02 10:45:00          10
2012-05-02 11:00:00          10
R>

Run Code Online (Sandbox Code Playgroud)

关于优雅:你不需要`twoh`对象.您可以将`观察'与"空"xts对象(`xts(,twohours)`)合并,在其上使用`na.locf`,然后使用`twohours`进行子集.或者,在一行中:`na.locf(merge(xts(,twohours),观察))[twohours]`. (5认同)

Answer 2

bar*_*eby 5

这是一个 data.table 解决方案，这可以使用滚动连接巧妙地完成：

library(data.table)
library(xts)

lu <- data.table(index=as.POSIXct("2012-05-02") + (0:7)*15*60)

observation <- xts(1:10,
                   order.by=lu[1,index +cumsum(runif(10)*60*10)])

observation.dt <- as.data.table(observation)
observation.dt[lu,on="index",roll=T]

Run Code Online (Sandbox Code Playgroud)

归档时间：	13 年，9 月前
查看次数：	11072 次
最近记录：	9 年，9 月前