atp*_*atp 5 vector speech quantization audio-processing
我无法从本研究论文中确切地知道如何根据训练数据集再现标准矢量量化算法来确定未识别语音输入的语言.这是一些基本信息:
摘要信息
使用声学特征的语言识别(例如日语,英语,德语等)是当前语音技术的重要但难以解决的问题....本文使用的语音数据库包含20种语言:16个句子由4个男性和4个女性发出两次.每个句子的持续时间约为8秒.第一种算法基于标准矢量量化(VQ)技术.每种语言都有自己的VQ码本,.
识别算法
第一种算法基于标准矢量量化(VQ)技术.每种语言k都有自己的VQ码本,.在识别阶段,输入语音被量化
并且计算累积的量化失真d_k.识别最小失真的语言.计算VQ失真,应用了几种LPC光谱失真度量......在这种情况下,WLR - 加权最小比率 - 距离:http://tinyurl.com/yc52gcl.
标准VQ算法:使用训练句子生成每种语言的
码本,alt文本http://tinyurl.com/y8csx6e.输入向量在句子中的累积距离,,定义为:alt文本http://tinyurl.com/ybynjc2
距离d可以是对应于声学特征的任何距离,并且它必须与用于码本生成的距离相同.每种语言都以其VQ码本为特征,.
我的问题是,我到底该怎么做?我有一套50个英文句子.在MATLAB中,我可以轻松计算任何给定信号的WLR.但是,我如何制定一个码本,因为我必须使用WLR为英语的"码本生成".我也很好奇如何将大小为16的VQ码本(被发现是最佳大小)与给定的输入信号进行比较.如果有人能帮我提取这篇论文,我会非常感激.
谢谢!