在 Keras 中，LSTM 状态何时在调用 model.predict 时重置？

Question

在 Keras 中，LSTM 状态何时在调用 model.predict 时重置？

该模型将 LSTM 作为其第一层。

在调用 model.predict 时说你传入了几个样本：

>sam = np.array([ [[.5, .6, .3]], [[.6, .6, .3]], [[.5, .6, .3]] ])
>model.predict(sam)
array([[ 0.23589483],
       [ 0.2327884 ],
       [ 0.23589483]])

Run Code Online (Sandbox Code Playgroud)

上面我们看到了映射：[[.5, .6, .3]] -> 0.23589483 等等（1 个元素的序列，它是一个长度为 3 的向量，映射到一个实数）

该模型的 input_length 为 1，input_dim 为 3。请注意，第一个和最后一个相同并且具有相同的输出 (0.23589483)。所以我的假设是，在 Keras 处理一个样本（在这种情况下是 1 个 3-D 向量的序列）之后，它会重置模型的内存。即每个序列基本上是独立的。这种观点是否有任何不正确或误导之处？

再举一个 input_length 3 和 input_dim 1 的例子。这一次，在一个序列中切换值并看到不同的结果（比较第二个列表和最后一个）。因此，随着 Keras 处理一个序列，内存正在发生变化，但是当完成处理时，内存会重置（第一个和第二个序列具有相同的结果）。

sam = np.array([ [[.1],[.1],[.9]], [[.1],[.9],[.1]], [[.1],[.1],[.9]]   ])
model.predict(sam)
array([[ 0.69906837],
   [ 0.1454899 ],
   [ 0.69906837]])

Run Code Online (Sandbox Code Playgroud)

上面我们看到映射 [[.1],[.1],[.9]] -> 0.69906837 等等（3 个元素到实数的序列）

Answer 1

Ger*_*ger 6

我很欣赏这是一个老问题，但希望这个答案可以帮助像我这样的其他 Keras 初学者。

我在我的机器上运行这个例子并观察到 LSTM 的隐藏状态和单元状态确实随着调用model.predict.

import numpy as np
import keras.backend as K
from keras.models import Model
from keras.layers import LSTM

batch_size = 1
timestep_size = 2
num_features = 4

inputs = Input(batch_shape=(batch_size, timestep_size, num_features)
x = LSTM(num_features, stateful=True)(inputs)

model = Model(inputs=inputs, outputs=x)
model.compile(loss="mse",
              optimizer="rmsprop",
              metrics=["accuracy"])

x = np.random.randint((10,2,4))
y = np.ones((10,4))
model.fit(x,y, epochs=100, batch_size=1)

def get_internal_state(model):
    # get the internal state of the LSTM
    # see https://github.com/fchollet/keras/issues/218
    h, c = [K.get_value(s) for s, _ in model.state_updates]
    return h, c

print "After fitting:", get_internal_state(model)

for i in range(3):
    x = np.random.randint((10,2,4))
    model.predict(x)
    print "After predict:", get_internal_state(model)

Run Code Online (Sandbox Code Playgroud)

以下是get_internal_state训练后调用的输出示例：

After_fitting: (array([[ 1.,  1.,  1.,  1.]], dtype=float32), array([[  11.33725166,   11.8036108 ,  181.75688171,   25.50110626]], dtype=float32))
After predict (array([[ 1.        ,  0.99999994,  1.        ,  1.        ]], dtype=float32), array([[   9.26870918,    8.83847237,  179.92633057,   28.89341927]], dtype=float32))
After predict (array([[ 0.99999571,  0.9992013 ,  1.        ,  0.9915328 ]], dtype=float32), array([[   6.5174489 ,    8.55165958,  171.42166138,   25.49199104]], dtype=float32))
After predict (array([[ 1.,  1.,  1.,  1.]], dtype=float32), array([[   9.78496075,    9.27927303,  169.95401001,   28.74017715]], dtype=float32))

Run Code Online (Sandbox Code Playgroud)

Answer 2

S.M*_* sh 3

您所说的model.predict()这意味着处理输入时网络的权重不会改变，因此当您输入时，[[.1],[.1],[.9]]无论其他输入在其间接收到什么，它总是会产生相同的结果。请注意，当您训练模型并预测测试数据时，这是首选行为。您不希望您提供的其他测试数据影响您的预测。

您在这里期望的效果可以在model.fit()例如您可以用来model.train_on_batch()训练输入（并更新模型权重），然后调用model.predict()以查看输出变化中看到。

编辑：如果您寻找 LSTM 的状态而不是网络的权重，您应该传递给层的 init，它默认stateful=True设置为。False使用时stateful你也必须传递batch_input_shape参数。请参阅此处了解更多信息。请注意，如果您希望每个输入影响下一个预测，则必须将批次大小设置为 1 （例如batch_input_shape=(1,3,1)），因为评估是对批次中的样本并行完成的，并且它们不会相互影响。

好吧，我同意权重不会改变。但是 LTSM 的内存/状态又如何呢？这不被认为是“重量”，对吗？我想知道是否确实转储了 LTSM 状态。 (3认同)

归档时间：	9 年，1 月前
查看次数：	3241 次
最近记录：	8 年，1 月前