语音处理中的矢量量化解释

atp*_*atp 5 vector speech quantization audio-processing

我无法从本研究论文中确切地知道如何根据训练数据集再现标准矢量量化算法来确定未识别语音输入的语言.这是一些基本信息:

摘要信息 使用声学特征的语言识别(例如日语,英语,德语等)是当前语音技术的重要但难以解决的问题....本文使用的语音数据库包含20种语言:16个句子由4个男性和4个女性发出两次.每个句子的持续时间约为8秒.第一种算法基于标准矢量量化(VQ)技术.每种语言都有自己的VQ码本,替代文字.

识别算法 第一种算法基于标准矢量量化(VQ)技术.每种语言k都有自己的VQ码本,替代文字.在识别阶段,输入语音被量化替代文字并且计算累积的量化失真d_k.识别最小失真的语言.计算VQ失真,应用了几种LPC光谱失真度量......在这种情况下,WLR - 加权最小比率 - 距离:http://tinyurl.com/yc52gcl.

标准VQ算法:使用训练句子生成每种语言的 码本,alt文本http://tinyurl.com/y8csx6e.输入向量在句子中的累积距离,替代文字,定义为:alt文本http://tinyurl.com/ybynjc2

距离d可以是对应于声学特征的任何距离,并且它必须与用于码本生成的距离相同.每种语言都以其VQ码本为特征,替代文字.

我的问题是,我到底该怎么做?我有一套50个英文句子.在MATLAB中,我可以轻松计算任何给定信号的WLR.但是,我如何制定一个码本,因为我必须使用WLR为英语的"码本生成".我也很好奇如何将大小为16的VQ码本(被发现是最佳大小)与给定的输入信号进行比较.如果有人能帮我提取这篇论文,我会非常感激.

谢谢!

wer*_*dle 1

第二个问题(将码本与给定信号进行比较)更简单:对于每个码本条目 V_k_j,您必须计算与输入信号的距离 d。具有最小距离“d”的“j”将对应于最适合的密码本条目。作为距离函数,您可以使用 WLR

构建密码本(trainig)有点复杂。您必须将句子划分为长度为 N (16) 的向量,然后使用某种聚类算法(如 k-means)对这些向量进行聚类。然后找到每个簇的平均值。这意味着并且将是密码本条目。这是我首先想到的事情。

另一种算法(我相信,会更好)可以在这里找到。此外,维基百科中描述了两种简单的训练算法