用于语音/说话人识别的CMU Sphinx

Dom*_*nic 6 audio speech-recognition pattern-matching voice-recognition cmusphinx

我正在寻找一种匹配已知数据集的方法,比方说一个MP3或wav文件列表,每个文件都是有人说话的样本.此时我知道文件ABC是人X讲的.

然后,我想采取另一个样本,并进行一些语音匹配,以显示这个语音最有可能的人,然后给出已知的数据集.

此外,我不一定关心这个人说了什么,只要我能找到一个匹配,即我不需要任何抄录或其他.

我知道CMU Sphinx不进行语音识别,它主要用于语音到文本,但我见过其他系统,例如:LIUM Speaker Diarization(http://cmusphinx.sourceforge.net/wiki/ speakerdiarization)或VoiceID项目(https://code.google.com/p/voiceid/),它使用CMU作为此类工作的基础.

如果我要使用CMU,我该如何进行语音匹配?

另外,如果CMU Sphinx不是最好的框架,那么还有一个替代的开源吗?

Dar*_*usz 2

这是一个对于博士论文来说足够复杂的主题。目前还没有良好且可靠的系统。

您面临的任务是一项非常复杂的任务。您应该如何处理它取决于您的情况。

  • 你们人数有限吗?多少?
  • 每个人有多少数据?

如果您识别的人很少,您可以尝试一些简单的事情,例如获取这些人的共振峰并将其与样本进行比较。

否则,您必须联系一些研究该主题的学者或陪审团制定您自己的解决方案。不管怎样,正如我所说,这都是一个难题。