唱歌时连续语音识别？

Question

作为我的应用程序的一部分,我希望添加语音识别,但不是传统意义上的.我有一堆由某人演唱的歌词(分为经文),其目的是找到当前正在演唱的诗歌,以便在屏幕上显示.

我玩过sphinx并得到一些基本的例子设置和工作,但是虽然似乎有很多关于注册语音文本的文档,你可以等待延迟然后处理结果,我找不到多少不断识别句子的想法.这当然是在我到达那些正在唱歌而没有说出来的部分之前!

有没有人有这方面的经验,如果有的话,哪里可以提供一个良好的起点？或者是我正在努力实现与狮身人面像过于雄心勃勃的事情,它是否真的无法正常运作？我愿意看其他图书馆,但他们必须是免费的,而且狮身人面像是最广泛谈论的我可以挖掘的.

Answer 1

完全有可能在发音稍有延迟的情况下立即识别语音。此外，如果你或多或少了解你期望得到什么。这称为“部分结果”，可通过 API 在所有 CMUSphinx 解码器中使用。基本上你可以在过程中检索假设。

关于如何稳定这个结果（如何提取其中的稳定部分）需要考虑一个小问题，但这种技术称为回溯并且可以轻松实现

对于唱歌来说，只要可以过滤掉音乐，也是可以的。