i向量和d向量之间的差异

Nik*_*ias 9 speech-recognition artificial-intelligence neural-network deep-learning

请问有人可以解释i-vector和d-vector之间的区别?我所知道的是它们广泛用于扬声器/语音识别系统,它们是表示说话者信息的一种模板,但我不知道主要区别.

小智 14

I向量是表示帧级特征的分布模式的特殊特征的特征.I向量提取本质上是GMM超向量的维数减少(尽管在计算i向量时不提取GMM超向量).它以与本征话筒自适应方案或JFA技术类似的方式提取,但是每个句子(或输入语音样本)被提取.

另一方面,使用DNN提取d向量.为了提取d向量,训练采用堆叠滤波器组特征(类似于ASR中使用的DNN声学模型)并在输出上生成单热扬声器标签(或扬声器概率)的DNN模型.D-vector是来自该DNN的最后隐藏层的平均激活.因此,与i-vector框架不同,这对于特征的分布没有任何假设(i-vector框架假设i-vector或潜在变量具有高斯分布).

总而言之,这些是从完全不同的方法或假设中提取的两个截然不同的特征.我建议你阅读这些文章:

N. Dehak,P.Kenny,R.Dehak,P.Dumouchel和P. Ouellet,"说话人验证的前端因子分析",IEEE交流音频,语音和语言处理,第一卷.19,没有.4,pp.788-798,2011.

E.Variani,X.Lei,E.McDermott,IL Moreno和J. G-Dominguez,"深度神经网络,用于小尺寸文本相关的说话人验证",Proc.ICASSP,2014年,第4080-4084页.


Pru*_*une 7

我不知道如何用简单的语言正确刻画d向量,但我可以提供一些帮助。

身份矢量或i矢量是特定语音片段的频谱签名,通常是一个音素的一小部分,很少(据我所见)与整个音素一样大。基本上,这是一个离散的频谱图,以与时间片的高斯混合同构的形式表示。

编辑

感谢那些提供评论和出色答案的人。我更新了此内容只是为了替换原始尝试中的错误信息。

d-矢量是从深NN,平均在DNN的最后隐藏层的特征向量的提取。这成为说话者的模型,用于与其他语音样本进行比较以进行识别。

  • 我绝对不同意d向量是从i向量序列中提取的说法。从(D)NN模型中提取d矢量,从GMM模型中提取i矢量。 (2认同)