用于语音/说话人识别的CMU Sphinx

Question

用于语音/说话人识别的CMU Sphinx

Dom*_*nic 6 audio speech-recognition pattern-matching voice-recognition cmusphinx

我正在寻找一种匹配已知数据集的方法,比方说一个MP3或wav文件列表,每个文件都是有人说话的样本.此时我知道文件ABC是人X讲的.

然后,我想采取另一个样本,并进行一些语音匹配,以显示这个语音最有可能的人,然后给出已知的数据集.

此外,我不一定关心这个人说了什么,只要我能找到一个匹配,即我不需要任何抄录或其他.

我知道CMU Sphinx不进行语音识别,它主要用于语音到文本,但我见过其他系统,例如:LIUM Speaker Diarization(http://cmusphinx.sourceforge.net/wiki/ speakerdiarization)或VoiceID项目(https://code.google.com/p/voiceid/),它使用CMU作为此类工作的基础.

如果我要使用CMU,我该如何进行语音匹配？

另外,如果CMU Sphinx不是最好的框架,那么还有一个替代的开源吗？

Answer 1

Dar*_*usz 2

这是一个对于博士论文来说足够复杂的主题。目前还没有良好且可靠的系统。

您面临的任务是一项非常复杂的任务。您应该如何处理它取决于您的情况。

你们人数有限吗？多少？
每个人有多少数据？

如果您识别的人很少，您可以尝试一些简单的事情，例如获取这些人的共振峰并将其与样本进行比较。

否则，您必须联系一些研究该主题的学者或陪审团制定您自己的解决方案。不管怎样，正如我所说，这都是一个难题。

归档时间：	12 年，9 月前
查看次数：	2702 次
最近记录：	11 年，11 月前