标签: recurrent-neural-network

使用LSTM RNN改组训练数据

由于LSTM RNN使用先前的事件来预测当前序列,为什么我们将训练数据混洗？我们不会失去训练数据的时间顺序吗？在对改组后的训练数据进行训练后,如何进行预测仍然有效？

machine-learning lstm keras recurrent-neural-network

hel*_*l89

lucky-day

24
推荐指数

1
解决办法

6665
查看次数

软注意力与注意力不集中

在这篇博文中,回顾性神经网络的不合理有效性,Andrej Karpathy提到了基于神经网络的机器学习的未来发展方向:

关注的概念是神经网络中最有趣的近期架构创新.[...]用于内存寻址的软注意方案很方便,因为它使模型保持完全可微分,但不幸的是,牺牲了效率,因为可以注意到的所有事情(但是轻柔地).可以认为这是在C中声明一个指针,它不指向特定的地址,而是在整个内存中的所有地址上定义一个完整的分布,并且取消引用指针返回指向内容的加权和(这将是一个昂贵的操作!).这促使多位作者交换软注意力模型以获得难以注意的情况,其中一个人对特定的一块存储器进行采样(例如,某些存储器单元的读/写动作,而不是在某种程度上从所有单元读取/写入).这种模式在哲学上更具吸引力,可扩展性和高效性,但不幸的是它也是不可微分的.

我认为我理解了指针的隐喻,但究竟是什么才是注意力,为什么难以辨别？

我在这里找到了关于注意力的解释,但仍然对软/硬部分感到困惑.

machine-learning neural-network recurrent-neural-network

dim*_*mid

2016 02-22

23
推荐指数

1
解决办法

1万
查看次数

TensorFlow:记住下一批次的LSTM状态(有状态LSTM)

给定训练有素的LSTM模型,我想对单个时间步进行推理,即seq_length = 1在下面的示例中.在每个时间步之后,需要记住内部LSTM(内存和隐藏)状态以用于下一个"批处理".在推理的最开始,init_c, init_h给定输入计算内部LSTM状态.然后将它们存储在LSTMStateTuple传递给LSTM 的对象中.在训练期间,每个时间步都更新此状态.然而,对于推理,我希望state在批次之间保存,即初始状态只需要在开始时计算,然后在每个"批次"(n = 1)之后保存LSTM状态.

我发现这个相关的StackOverflow问题:Tensorflow,在RNN中保存状态的最佳方法？.但是,这仅在以下情况下有效state_is_tuple=False,但TensorFlow很快就会弃用此行为(请参阅rnn_cell.py).Keras似乎有一个很好的包装器可以使有状态的 LSTM成为可能,但我不知道在TensorFlow中实现这一目标的最佳方法.TensorFlow GitHub上的这个问题也与我的问题有关:https://github.com/tensorflow/tensorflow/issues/2838

有关构建有状态LSTM模型的任何好建议吗？

inputs  = tf.placeholder(tf.float32, shape=[None, seq_length, 84, 84], name="inputs")
targets = tf.placeholder(tf.float32, shape=[None, seq_length], name="targets")

num_lstm_layers = 2

with tf.variable_scope("LSTM") as scope:

    lstm_cell  = tf.nn.rnn_cell.LSTMCell(512, initializer=initializer, state_is_tuple=True)
    self.lstm  = tf.nn.rnn_cell.MultiRNNCell([lstm_cell] * num_lstm_layers, state_is_tuple=True)

    init_c = # compute initial LSTM memory state using contents in placeholder 'inputs'
    init_h = # compute initial LSTM …

标签 统计

标签统计