MFCC在语音识别中的应用

duo*_*gja 1 speech-recognition signal-processing fft voice-recognition mfcc

我上周花了整整一个时间来搜索MFCC和相关问题.现在,我可以从二维矢量中的.wav文件中获得MFCC特征,coff [56] [12],让我们说.12是我想要提取的系数的数量,56是帧数.根据我读过的几个文件,我们可以使用12个以上的系数识别语音(特别是,我想识别单词"one","two"......到"ten").但是现在我得到了56个12个棺材,所以我应该使用56个框架中的哪一个?

如果我出错了,请帮帮我!

Ale*_*ets 9

你正在跳过一些关键步骤.让我简要解释一下它应该如何运作.语音数据最初是离散信号.你把它切成了一个叫做"框架"的小块,每块都希望只包含一个电话.帧通常重叠,以免丢失任何重要信息.然后你提取特征 - MFCC并使用隐藏Makov模型搜索包含许多帧的最可能的单词.此时你还需要一个单词发音词典和声学模型.在下一个级别,您使用语言模型来描述可以构造的单词的句子,并获得最终的假设.这是非常抽象的描述,因此需要在更近的范围内审查每个解码步骤.