小编all*_*len的帖子

tf.import_graph_def和tf.train.import_meta_graph之间的区别是什么

在模型文件夹中训练时,会有自动保存的元图文件.
那么图和元图之间的差异是什么呢?
如果我想从头开始加载模型并从建筑图中进行推理,请
使用tf.train.import_meta_grah没问题?

tensorflow

9
推荐指数
1
解决办法
2696
查看次数

如何从tf.train.string_input_producer获取epoch num信息

如果使用string_input_producer读取文件,就像

filename_queue = tf.train.string_input_producer(
  files, 
  num_epochs=num_epochs,
  shuffle=shuffle)
Run Code Online (Sandbox Code Playgroud)

如何在训练期间获得epoch num信息(我想在训练期间显示此信息)我在下面尝试过

run 
tf.get_default_graph().get_tensor_by_name('input_train/input_producer/limit_epochs/epochs:0')
Run Code Online (Sandbox Code Playgroud)

将始终与限制纪元数相同.

run
tf.get_default_graph().get_tensor_by_name('input_train/input_producer/limit_epochs/CountUpTo:0')
Run Code Online (Sandbox Code Playgroud)

每次都会加1 ..

两者都无法在训练期间获得正确的纪元数.

另一件事是,如果从现有模型重新训练,我可以获得已经训练过的纪元数据吗?

tensorflow

6
推荐指数
1
解决办法
2723
查看次数

Nan在摘要直方图中

我的程序将面对这个问题(不是每次运行都会遇到这个......),然后如果面对这个我总是可以重现这个错误加载从我在程序崩溃之前保存的最后一个模型由于nan.当从这个模型重新运行时,第一次训练过程似乎很好,使用模型来产生损失(我有打印损失并且没有问题),但是在应用渐变之后,嵌入变量的值将变为Nan.

那么纳问题的根本原因是什么?由于不知道如何进一步调试而感到困惑,这个程序使用相同的数据和参数将大部分运行正常,并且只在某些运行期间遇到此问题.

Loading existing model from: /home/gezi/temp/image-caption//model.flickr.rnn2.nan/model.ckpt-18000
Train from restored model: /home/gezi/temp/image-caption//model.flickr.rnn2.nan/model.ckpt-18000
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:245] PoolAllocator: After 5235 get requests, put_count=4729 evicted_count=1000 eviction_rate=0.211461 and unsatisfied allocation rate=0.306781
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:257] Raising pool_size_limit_ from 100 to 110
2016-10-04 21:45:39 epoch:1.87 train_step:18001 duration:0.947 elapsed:0.947 train_avg_metrics:['loss:0.527']  ['loss:0.527']
2016-10-04 21:45:39 epoch:1.87 eval_step: 18001 duration:0.001 elapsed:0.948 ratio:0.001
W tensorflow/core/framework/op_kernel.cc:968] Invalid argument: Nan in summary histogram for: rnn/HistogramSummary_1
     [[Node: rnn/HistogramSummary_1 = HistogramSummary[T=DT_FLOAT, _device="/job:localhost/replica:0/task:0/cpu:0"](rnn/HistogramSummary_1/tag, rnn/image_text_sim/image_mlp/w_h/read/_309)]]
W tensorflow/core/framework/op_kernel.cc:968] Invalid argument: Nan in summary histogram for: rnn/HistogramSummary_1
     [[Node: rnn/HistogramSummary_1 = HistogramSummary[T=DT_FLOAT, …
Run Code Online (Sandbox Code Playgroud)

tensorflow

6
推荐指数
3
解决办法
1万
查看次数

标签 统计

tensorflow ×3