相关疑难解决方法(0)

关于adam优化器如何在tensorflow中实际工作,我感到很困惑.

我阅读文档的方式是,每次梯度下降迭代都会改变学习速度.

但是当我调用该函数时,我给它一个学习率.我并没有把这个函数称为,做一个时代(隐式地调用#iterations以便进行我的数据训练).我明确地调用每个批次的函数

for epoch in epochs
     for batch in data
          sess.run(train_adam_step, feed_dict={eta:1e-3})

所以我的eta无法改变.而且我没有传入时间变量.或者这是某种生成器类型的东西,t每当我调用优化器时,会话创建会增加吗？

假设它是一些生成器类型的东西,并且学习率正在无形地降低:如何在不降低学习速率的情况下运行adam优化器？在我看来,像RMSProp基本上是相同的,我必须做的唯一的事情,以使其等于(学习率无视)是改变超参数momentum和decay匹配beta1,并beta2分别.那是对的吗？

15
推荐指数

1
解决办法

9968
查看次数