将时序数据馈入有状态LSTM的正确方法？

Question

将时序数据馈入有状态LSTM的正确方法？

rmc*_*701 7 python machine-learning lstm keras tensorflow

假设我有一个整数序列：

0,1,2, ..

并希望根据给定的最后3个整数来预测下一个整数，例如：

[0,1,2]->5，[3,4,5]->6等

假设我像这样设置模型：

batch_size=1
time_steps=3
model = Sequential()
model.add(LSTM(4, batch_input_shape=(batch_size, time_steps, 1), stateful=True))
model.add(Dense(1))

Run Code Online (Sandbox Code Playgroud)

据我了解，模型具有以下结构（请原图）：

第一个问题：我的理解正确吗？

请注意，我已经画出了C_{t-1}, h_{t-1}进入图片的先前状态，因为指定时会暴露出来stateful=True。在这个简单的“下一个整数预测”问题中，应通过提供此额外的信息来改善性能（只要先前的状态是由前三个整数产生的）。

这使我想到了一个主要问题： 似乎标准做法（例如，参见此博客文章和TimeseriesGenerator keras预处理实用程序）是在训练过程中向模型提供一组交错的输入。

例如：

batch0: [[0, 1, 2]]
batch1: [[1, 2, 3]]
batch2: [[2, 3, 4]]
etc

Run Code Online (Sandbox Code Playgroud)

这让我感到困惑，因为这似乎需要第一Lstm单元的输出（对应于第一时间步长）。看这个图：

从tensorflow docs：

stateful：布尔值（默认为False）。如果为True，则批次中索引i的每个样本的最后状态将用作下一个批次中索引i的样本的初始状态。

似乎此“内部”状态不可用，并且所有可用状态都是最终状态。看这个图：

因此，如果我的理解是正确的（显然不是这样），那么在使用时是否不应该将不重叠的样本窗口馈送到模型中stateful=True？例如：

batch0: [[0, 1, 2]]
batch1: [[3, 4, 5]]
batch2: [[6, 7, 8]]
etc

Run Code Online (Sandbox Code Playgroud)

Answer 1

Ove*_*gon 5

答案是：取决于眼前的问题。对于单步预测的情况-是的，可以，但是不必这样做。但是，无论您是否这样做，都会对学习产生重大影响。

批处理与示例机制（“参见AI” =参见“其他信息”部分）

所有模型都将样本视为独立的例子；一批32个样品就像一次32个样品（有差异-参见AI）。从模型的角度来看，数据分为批处理维度batch_shape[0]和要素维度batch_shape[1:]-两个“不要说话”。两者之间的唯一关系是通过渐变（请参见AI）。

重叠与非重叠批处理

理解它的最佳方法也许是基于信息的。我将从时间序列二进制分类开始，然后将其与预测联系起来：假设您有10分钟的EEG记录，每个记录有240000个时间步长。任务：癫痫发作还是非癫痫发作？

由于240k对于RNN来说处理不了太多，因此我们使用CNN进行降维
我们可以选择使用“滑动窗口”-即一次输入一个子段；让我们用54k

取10个样本，定形(240000, 1)。怎么喂？

(10, 54000, 1)，包括所有样品，切片为sample[0:54000]; sample[54000:108000]...
(10, 54000, 1)，包括所有样品，切片为sample[0:54000]; sample[1:54001]...

您选择上述两个中的哪一个？如果为（2），则您的神经网络将不会混淆这10个样本的非癫痫发作。但这对其他任何样本也一无所知。即，它将极大地过度拟合，因为在每次迭代中看到的信息几乎没有差异（1/54000 = 0.0019％）-因此，您基本上是连续多次向同一批物料中饲喂。现在假设（3）：

(10, 54000, 1)，包括所有样品，切片为sample[0:54000]; sample[24000:81000]...

更合理；现在我们的窗户有50％的重叠，而不是99.998％。

预测：重叠不好吗？

如果您要进行单步预测，则信息格局现在已更改：

您的序列长度很有可能从240000开始，所以任何类型的重叠都不会受到“相同批次多次”的影响
预测与分类从根本上有所不同，因为您输入的每个子样本的标签（下一个时间步长）都不同。分类对整个序列使用一个

这会极大地改变您的损失函数，以及将其最小化的“好的做法”：

预测变量必须对初始样本具有鲁棒性，尤其是对于LSTM-因此，我们通过滑动序列来训练每个这样的“开始”，如您所示
由于标签随时间步长而变化，因此损失函数随时间步长而变化很大，因此过度拟合的风险要小得多

我该怎么办？

首先，请确保您了解整篇文章，因为这里没有什么是真正的“可选”。然后，这是每批重叠与不重叠的关键：

转移了一个样本：模型学会了更好地预测每个起始步骤的前进步-意思是：（1）LSTM对初始细胞状态的鲁棒性；（2）在落后X步的情况下，LSTM可以很好地预测前进的任何一步
许多样本在以后的批次中转移：模型不太可能“记住”火车设置和过拟合

您的目标：平衡两者；1在2上的主要优势是：

2可以让模型忘记看过的样本来妨碍模型
1允许模型通过检查样品的多个起点和终点（标签）并相应地平均梯度来提取更好的质量特征

我应该在预测中使用（2）吗？

如果您的序列长度非常长，并且您可以负担“滑动窗口” w /〜其长度的50％，但是，这取决于数据的性质：信号（EEG）？是。股票，天气？对此感到怀疑。
多对多预测；更常见的是见（2），每个较长的序列较大。

LSTM有状态：实际上可能对您的问题完全没有用。

当LSTM不能一次处理整个序列时，即“分裂”状态，或者当反向传播需要不同的梯度时，可以使用有状态。对于前者，想法是-LSTM在评估后者时会考虑前者的顺序：

t0=seq[0:50]; t1=seq[50:100]说得通; t0逻辑上导致t1
seq[0:50] --> seq[1:51]没有意义; t1不是因果关系t0

换句话说：不要在有状态的批次中重叠。相同的批次可以，独立的也可以-样本之间没有“状态”。

何时使用有状态：何时LSTM在评估下一个时受益于前一个批次。这可以包括一步预测，但前提是您不能一次输入整个序列：

期望：100个时间步。可以做到：50。因此我们t0, t1按照上面的第一个项目符号进行设置。
问题：不容易以编程方式实现。您将需要找到一种在不应用渐变的情况下添加LSTM的方法，例如冻结砝码或设置lr = 0。

LSTM何时以及如何在有状态的情况下“通过状态”？

时间：仅批次之间；样品是完全独立的
如何：在Keras，只批样品批次样品：stateful=True 需要你指定batch_shape，而不是input_shape-因为，Keras建立batch_size了LSTM的独立的国家在编制

根据以上情况，您不能执行以下操作：

# sampleNM = sample N at timestep(s) M
batch1 = [sample10, sample20, sample30, sample40]
batch2 = [sample21, sample41, sample11, sample31]

Run Code Online (Sandbox Code Playgroud)

这暗示了21因果关系10-将破坏培训。而是：

batch1 = [sample10, sample20, sample30, sample40]
batch2 = [sample11, sample21, sample31, sample41]

Run Code Online (Sandbox Code Playgroud)

批次与样本：其他信息

“批”是一组样本-1个或更多（假定对于该答案总是为后者）。三种迭代数据的方法：批量梯度下降（一次整个数据集），随机GD（一次一个样本）和Minibatch GD（中间）。（但是，在实践中，我们也称最后一个SGD，并且仅区分vs BGD-对此答案假设如此。）差异：

SGD从未真正优化列车的损失函数-仅对其“近似值”进行了优化；每个批次都是整个数据集的子集，计算出的梯度仅与最小化该批次的损失有关。批次大小越大，其损失函数越类似于列车组的损失函数。
上面的内容可以扩展到拟合批次与样本：样本是批次的近似值，或者数据集的近似性较差
首先拟合16个样本，然后再拟合16个样本与一次拟合32 不相同-由于权重在中间进行更新，因此后半部分的模型输出将更改
实际上，与BGD相比，选择SGD的主要原因不是计算上的限制-而是在大多数情况下都是优越的。简单地解释一下：BGD容易过拟合，并且SGD通过探索更多样化的损失空间而收敛到针对测试数据的更好解决方案。

奖金图：

我仍在消化这个精彩的答案（谢谢），但我仍然不清楚我后面的两个数字中哪一个是“正确的”：当“stateful=True”执行“最终”LSTM状态时（对应到给定整个样本到该点的时间序列的输出）传递到下一批？或者是某种中间状态？ (2认同)

归档时间：	6 年，8 月前
查看次数：	226 次
最近记录：	6 年，8 月前