来自学习变量的预期张量流模型大小

kar*_*l71 8 python conv-neural-network tensorflow jupyter-notebook

在为图像分类任务训练卷积神经网络时,我们通常希望我们的算法学习将给定图像转换为其正确标签的过滤器(和偏差)。我有几个模型,我试图在模型大小、操作次数、准确性等方面进行比较。 但是,从 tensorflow 输出的模型的大小,具体来说是存储所有值的model.ckpt.data文件图中的变量不是我所期望的。事实上,它似乎要大三倍。

为了直接解决这个问题,我将根据这个Jupyter notebook提出我的问题。以下是定义变量(权重和偏差)的部分:

# Store layers weight & bias
weights = {
# 5x5 conv, 1 input, 32 outputs
'wc1': tf.Variable(tf.random_normal([5, 5, 1, 32]),dtype=tf.float32),
# 5x5 conv, 32 inputs, 64 outputs
'wc2': tf.Variable(tf.random_normal([5, 5, 32, 64]),dtype=tf.float32),
# fully connected, 7*7*64 inputs, 1024 outputs
'wd1': tf.Variable(tf.random_normal([7*7*64, 1024]),dtype=tf.float32),
# 1024 inputs, 10 outputs (class prediction)
'out': tf.Variable(tf.random_normal([1024, num_classes]),dtype=tf.float32)
}

biases = {
'bc1': tf.Variable(tf.random_normal([32]),dtype=tf.float32),
'bc2': tf.Variable(tf.random_normal([64]),dtype=tf.float32),
'bd1': tf.Variable(tf.random_normal([1024]),dtype=tf.float32),
'out': tf.Variable(tf.random_normal([num_classes]),dtype=tf.float32)
}
Run Code Online (Sandbox Code Playgroud)

为了在训练过程结束时保存模型,我添加了几行:

# Save the model
save_path = saver.save(sess, logdir+"model.ckpt")
print("Model saved in file: %s" % save_path)
Run Code Online (Sandbox Code Playgroud)

将所有这些变量相加,我们希望得到一个大小为 12.45Mb的model.ckpt.data文件(我通过计算我们的模型学习的浮点元素的数量然后将该值转换为兆字节来获得它)。但!保存的.data文件为 39.3Mb。为什么是这样?

我对更复杂的网络(ResNet 的变体)采用了相同的方法,我预期的 model.data 大小也比实际的.data文件小约 3 倍。

所有这些变量的数据类型都是 float32。

Max*_*xim 6

将所有这些变量相加,我们希望得到一个大小为 12.45Mb 的 model.ckpt.data 文件

传统上,大多数模型参数都在第一个全连接层中,在这种情况下为wd1。仅计算其大小会产生:

7*7*128 * 1024 * 4 = 25690112
Run Code Online (Sandbox Code Playgroud)

... 或25.6Mb. 注意4系数,因为变量dtype=tf.float32,即4每个参数的字节数。其他层也对模型大小有影响,但影响不大。

正如你所看到的,你估计12.45Mb有点过了(你使用16位的每PARAM?)。检查点还存储了一些一般信息,因此开销大约为 25%,这仍然很大,但不是 300%。

[更新]

所讨论的模型实际上具有 FC1 层 shape [7*7*64, 1024],正如所澄清的那样。所以上面计算的大小应该是12.5Mb,确实。这让我更仔细地查看了保存的检查点。

检查后,我注意到我最初错过的其他大变量:

...
Variable_2 (DT_FLOAT) [3136,1024]
Variable_2/Adam (DT_FLOAT) [3136,1024]
Variable_2/Adam_1 (DT_FLOAT) [3136,1024]
...
Run Code Online (Sandbox Code Playgroud)

Variable_2是完全wd1,但也有亚当优化2个拷贝。这些变量是由Adam 优化器创建的,它们被称为并保存所有可训练变量mv累加器。现在总大小是有道理的。

您可以运行以下代码来计算图形变量的总大小 - 37.47Mb

var_sizes = [np.product(list(map(int, v.shape))) * v.dtype.size
             for v in tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES)]
print(sum(var_sizes) / (1024 ** 2), 'MB')
Run Code Online (Sandbox Code Playgroud)

所以开销实际上很小。额外的大小是由于优化器。