如何在Tensorflow中暂停/恢复训练

Odd*_*org 8 tensorflow

此问题是在保存和还原文档可用之前提出的.现在我会考虑弃用这个问题,并说人们依赖于保存和恢复的官方文档

旧问题的要点:

我让TFCIFAR教程中正常工作.我已经更改了代码以将train_dir(带有检查点和模型的目录)保存到已知位置.

这让我想到了一个问题:如何暂停和恢复TF训练?

Ham*_* MP 13

TensorFlow使用类似图形的计算,节点(Ops)和边缘(变量又称状态),并为它提供SaverVars.

因此,当它是分布式计算时,您可以在一台机器/处理器中运行图形的一部分而将其余部分运行在另一台机器/处理器中,同时您可以保存状态(Vars)并在下次继续工作以继续工作.

saver.save(sess, 'my-model', global_step=0) ==> filename: 'my-model-0'
...
saver.save(sess, 'my-model', global_step=1000) ==> filename: 'my-model-1000'
Run Code Online (Sandbox Code Playgroud)

以后你可以使用

tf.train.Saver.restore(sess, save_path)
Run Code Online (Sandbox Code Playgroud)

恢复已保存的Vars.

节省使用