如何培训语音识别的lstm

use*_*562 5 speech-recognition speech-to-text lstm keras tensorflow

我正在尝试训练用于语音识别的lstm模型,但不知道要使用哪种训练数据和目标数据.我正在使用LibriSpeech数据集,它包含音频文件及其成绩单.此时,我知道目标数据将是转录文本向量化.至于训练数据,我正在考虑使用每个音频文件(或MFCC功能)的频率和时间.如果这是解决问题的正确方法,那么训练数据/音频将是多个阵列,我如何将这些数组输入到我的lstm模型中?我需要对它们进行矢量化吗?

谢谢!

Was*_*mad 15

要准备语音数据集以输入LSTM模型,您可以看到此帖子 - 用于LSTM二进制分类的构建语音数据集以及分段数据准备.

作为一个很好的例子,你可以看到这篇文章 - http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/.这篇文章讨论了如何使用RNN-LSTM预测Keras中的向量序列.

我相信你会发现这篇文章(https://stats.stackexchange.com/questions/192014/how-to-implement-a-lstm-based-classifier-to-classify-speech-files-using-keras)非常有帮助太.