Sur*_*dra 3 machine-learning recurrent-neural-network ctc
我试图了解 RNN Transducer 如何使用地面实况标签进行训练。就 CTC 而言,我知道该模型是使用损失函数进行训练的,该函数总结了地面真实标签所有可能对齐的所有分数。
但在 RNN-T 中,预测网络必须接收最后一步的输入才能产生类似于“教师强制”方法的输出。但我的疑问是,地面实况标签是否应该转换为所有可能的带有空白标签的对齐方式,并通过“教师强制”方法将每个对齐方式馈送到网络?
小智 6
RNN-T 具有转录网络(类似于声学模型)、预测网络(语言模型)和结合预测网络和转录网络输出的联合网络(/功能,取决于实现)。
在训练期间,您通过以下方式处理每个话语:
联合网络的 T*U 输出可以被视为一个网格,如 Graves 2012 的图 1 所示。然后可以使用前向-后向算法有效地实现损失函数(第 2.4 节,Graves 2012)。仅允许水平(消耗声学框架)和垂直(消耗标签)过渡。从t到t+1的步进类似于CTC中的空白状态,而在进行垂直转换时,即从输出标签u到u+1,输出非空白符号。请注意,您可以使用多个时间帧而不输出非空白符号(根据 CTC),但您也可以输出多个标签而不前进到 t。
为了更直接地回答您的问题,请注意,只有非空白输出会传递回预测网络的输入,并且转录和预测网络是异步运行的。
参考:
| 归档时间: |
|
| 查看次数: |
1392 次 |
| 最近记录: |