use*_*562 5 speech-recognition speech-to-text lstm keras tensorflow
我正在尝试训练用于语音识别的lstm模型,但不知道要使用哪种训练数据和目标数据.我正在使用LibriSpeech数据集,它包含音频文件及其成绩单.此时,我知道目标数据将是转录文本向量化.至于训练数据,我正在考虑使用每个音频文件(或MFCC功能)的频率和时间.如果这是解决问题的正确方法,那么训练数据/音频将是多个阵列,我如何将这些数组输入到我的lstm模型中?我需要对它们进行矢量化吗?
谢谢!
Was*_*mad 15
要准备语音数据集以输入LSTM模型,您可以看到此帖子 - 用于LSTM二进制分类的构建语音数据集以及分段数据准备.
作为一个很好的例子,你可以看到这篇文章 - http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/.这篇文章讨论了如何使用RNN-LSTM预测Keras中的向量序列.
我相信你会发现这篇文章(https://stats.stackexchange.com/questions/192014/how-to-implement-a-lstm-based-classifier-to-classify-speech-files-using-keras)非常有帮助太.
归档时间: |
|
查看次数: |
8416 次 |
最近记录: |