如何告诉 tf.train.MonitoredTrainingSession 仅恢复变量的子集,并对其余变量执行初始化?
从 cifar10 教程开始.. https://github.com/tensorflow/models/blob/master/tutorials/image/cifar10/cifar10_train.py
..我创建了要恢复和初始化的变量列表,并使用传递给 MonitoredTrainingSession 的脚手架指定它们:
restoration_saver = Saver(var_list=restore_vars)
restoration_scaffold = Scaffold(init_op=variables_initializer(init_vars),
ready_op=constant([]),
saver=restoration_saver)
Run Code Online (Sandbox Code Playgroud)
但这会出现以下错误:
运行时错误:初始化操作没有使模型为 local_init 做好准备。初始化操作:group_deps,初始化fn:无,错误:变量未初始化:conv2a/T,conv2b/T,[...]
..其中错误消息中列出的未初始化变量是我的“init_vars”列表中的变量。
该异常是由 SessionManager.prepare_session() 引发的。该方法的源代码似乎表明,如果会话从检查点恢复,则 init_op 不会运行。所以看起来你可以恢复变量或初始化变量,但不能两者兼而有之。
好的,正如我所怀疑的,我通过基于现有的 tf.training.SessionManager 实现一个新的 RefinementSessionManager 类得到了我想要的。这两个类几乎相同,只是我修改了prepare_session 方法以调用init_op,无论模型是否从检查点加载。
这允许我从检查点加载变量列表并初始化 init_op 中的剩余变量。
我的prepare_session方法是这样的:
def prepare_session(self, master, init_op=None, saver=None,
checkpoint_dir=None, wait_for_checkpoint=False,
max_wait_secs=7200, config=None, init_feed_dict=None,
init_fn=None):
sess, is_loaded_from_checkpoint = self._restore_checkpoint(
master,
saver,
checkpoint_dir=checkpoint_dir,
wait_for_checkpoint=wait_for_checkpoint,
max_wait_secs=max_wait_secs,
config=config)
# [removed] if not is_loaded_from_checkpoint:
# we still want to run any supplied initialization on models that
# were loaded from checkpoint.
if not is_loaded_from_checkpoint and init_op is None and not init_fn and self._local_init_op is None:
raise RuntimeError("Model is not initialized and no init_op or "
"init_fn or local_init_op was given")
if init_op is not None:
sess.run(init_op, feed_dict=init_feed_dict)
if init_fn:
init_fn(sess)
# [...]
Run Code Online (Sandbox Code Playgroud)
希望这对其他人有帮助。
| 归档时间: |
|
| 查看次数: |
6515 次 |
| 最近记录: |