为什么在检查点中，每一层都有两个额外的变量？

Question

为什么在检查点中，每一层都有两个额外的变量？

H. *_*Mao 5 optimization deep-learning tensorflow

我创建了一个具有三个卷积层和两个全连接层的卷积神经网络。我用来tf.train.saver()保存变量。当我inspect_checkpoint.py用来检查保存在检查点文件中的变量时。为什么每层都保存了两个额外的变量，比如Adam_1和Adam？另外，什么是beta1_power和beta2_power？

conv_layer1_b  (DT_FLOAT)  [32]

conv_layer1_w  (DT_FLOAT)  [1,16,1,32]

conv_layer1_b/Adam  (DT_FLOAT)  [32]

conv_layer1_w/Adam (DT_FLOAT) [1,16,1,32]

conv_layer1_w/Adam_1 (DT_FLOAT) [1,16,1,32]

conv_layer1_b/Adam_1 (DT_FLOAT) [32]

conv_layer3_w/Adam (DT_FLOAT) [1,16,64,64]

conv_layer3_w (DT_FLOAT) [1,16,64,64]

conv_layer3_b/Adam_1 (DT_FLOAT) [64]

conv_layer3_b (DT_FLOAT) [64]

conv_layer3_b/Adam (DT_FLOAT) [64]

conv_layer3_w/Adam_1 (DT_FLOAT) [1,16,64,64]

conv_layer2_w/Adam_1 (DT_FLOAT) [1,16,32,64]

conv_layer2_w/Adam (DT_FLOAT) [1,16,32,64]

conv_layer2_w (DT_FLOAT) [1,16,32,64]

conv_layer2_b/Adam_1 (DT_FLOAT) [64]

conv_layer2_b (DT_FLOAT) [64]

conv_layer2_b/Adam (DT_FLOAT) [64]

beta1_power (DT_FLOAT) []

beta2_power (DT_FLOAT) []

NN1_w (DT_FLOAT) [2432,512]

NN1_b (DT_FLOAT) [512]

NN1_w/Adam_1 (DT_FLOAT) [2432,512]

NN1_b/Adam_1 (DT_FLOAT) [512]

NN1_w/Adam (DT_FLOAT) [2432,512]

NN1_b/Adam (DT_FLOAT) [512]

NN2_w (DT_FLOAT) [512,2]

NN2_b (DT_FLOAT) [2]

NN2_w/Adam_1 (DT_FLOAT) [512,2]

NN2_b/Adam_1 (DT_FLOAT) [2]

NN2_w/Adam (DT_FLOAT) [512,2]

NN2_b/Adam (DT_FLOAT) [2]

Run Code Online (Sandbox Code Playgroud)

Answer 1

eta*_*ion 4

您正在使用 Adam 优化器 ( https://arxiv.org/abs/1412.6980 ) 进行优化。Adam 有两个状态变量来存储与参数大小相同的梯度统计数据（算法 1），这是每个参数变量的两个附加变量。优化器本身有一些超参数，其中 \xce\xb2 ₁和 \xce\xb2 ₂，我猜在你的情况下它们存储为变量。

\n

归档时间：	9 年，4 月前
查看次数：	1601 次
最近记录：	7 年，7 月前