我已经看到了很多关于使用LSTM进行张量流时间序列的指南,但我仍然不确定当前读取和处理数据的最佳实践 - 特别是当人们应该使用tf.data.DatasetAPI时.
在我的情况下,我有一个文件data.csv与我features,并希望做以下两个任务:
计算目标 - 目标时间t是某个范围内某些列的百分比变化,即
labels[i] = features[i + h, -1] / features[i, -1] - 1
Run Code Online (Sandbox Code Playgroud)
我想h在这里成为一个参数,所以我可以尝试不同的视野.
滚动窗口 - 出于培训目的,我需要将我的功能滚动到长度为的窗口window:
train_features[i] = features[i: i + window]
Run Code Online (Sandbox Code Playgroud)我很乐意使用pandas或构建这些对象numpy,所以我不会问如何实现这一点 - 我的问题是具体应该是什么样的管道tensorflow.
编辑:我想我也想知道我列出的2个任务是否适合数据集api,或者我最好使用其他库来处理它们?