TimeDistributed 包装器对 LSTM 或任何其他层有何用途

Question

TimeDistributed 包装器对 LSTM 或任何其他层有何用途

Kad*_*ikh 13 machine-learning neural-network deep-learning keras tensorflow

我试图了解在 keras/tensorflow 中使用 TimeDistributed 层。我已经阅读了一些主题和文章，但仍然没有正确理解。

让我对 TImeDistributed 层的作用有所了解的线程是 -

TimeDistributed 层在 Keras 中的作用是什么？

时间分布（密集）与 Keras 中的密集 - 相同数量的参数

但我仍然不知道为什么实际上使用了图层！

例如，以下代码将提供相同的输出（& output_shape）：

model = Sequential()
model.add(TimeDistributed(LSTM(5, input_shape = (10, 20), return_sequences = True)))
print(model.output_shape)

model = Sequential()
model.add(LSTM(5, input_shape = (10, 20), return_sequences = True))
print(model.output_shape)

Run Code Online (Sandbox Code Playgroud)

输出形状将是（根据我的知识）-

(None, 10, 5)

Run Code Online (Sandbox Code Playgroud)

那么，如果两个模型都提供相同的输出，那么 TimeDistributed Layer 的实际用途是什么？

我还有一个问题。TimeDistributed 层将时间相关数据应用于不同的层（共享相同的权重）。那么，它与展开 keras API 中提供的 LSTM 层有何不同：

展开：布尔值（默认为 False）。如果为 True，网络将展开，否则将使用符号循环。展开可以加速 RNN，尽管它往往更占用内存。展开仅适用于短序列。

这两者有什么区别？

谢谢。。我还是个新手，所以有很多问题。

Answer 1

SaT*_*aTa 18

正如 Keras 文档所暗示的 TimeDistributed 是一个包装器，它将一个层应用于输入的每个时间切片。

这是一个可能有帮助的示例：

假设您有猫的视频样本，并且您的任务是一个简单的视频分类问题，如果猫不动则返回 0，如果猫在动则返回 1。让我们假设您的输入 dim 是 (None, 50, 25, 25, 3) 这意味着您每个样本有 50 个时间步长或帧，并且您的帧是 25 x 25 并且有 3 个通道，rgb。

嗯，一种方法是使用 CNN 从每一帧中提取一些“特征”，比如 Conv2D，然后将它们传递给 LSTM 层。但是每帧的特征提取都是一样的。现在 TimeDistributed 来救援了。您可以用它包装您的 Conv2D，然后将输出传递给同样由 TimeDistributed 包装的 Flatten 层。因此，在应用 TimeDistributed(Conv2D(...)) 之后，输出将是暗淡的 (None, 50, 5, 5, 16)，在 TimeDistributed(Flatten()) 之后，输出将是暗淡的 (None , 50, 400)。（实际的暗淡将取决于 Conv2D 参数。）

该层的输出现在可以通过 LSTM。

所以很明显，LSTM 本身不需要 TimeDistributed 包装器。

归档时间：	7 年，2 月前
查看次数：	4615 次
最近记录：	5 年，6 月前