如何解码语音输入

jos*_*iah 5 audio speech-recognition machine-learning voice-recognition

我想要做的是创建一个API,将人类语音翻译成IPA(国际音标)格式.我的问题是,关于如何在原始音频波形的水平上解码语音的资源在哪里.我找了一个API,但我发现的大部分内容都直接翻译成罗马字母.我正在寻找能够区分声乐语音的能力.

Sla*_*off 4

首先我想说的是,这个项目比你想象的要困难和复杂得多。语音到文本处理是一个非常庞大且复杂的领域,已经进行了大量的研究。大多数解析器将内容直接发送给罗马字符的原因是因为它们的大部分处理都是模糊声音与其他模糊声音的上下文的概率匹配,以猜测哪些单词在一起有意义。您更有可能找到能为您提供 Soundex 而不是 IPA 的东西。也就是说,这个问题已经在多个方面得到解决。您最好的选择可能是 CMU 的 Sphinx 项目。

http://cmusphinx.sourceforge.net/wiki/start
Run Code Online (Sandbox Code Playgroud)

这将为您提供一个良好的开端,但您假设语音到文本的处理比实际情况要先进得多,并且没有简单的方法可以通过波形以任何精度将语音转换为 IPA。Sphinx 是非常模块化且完全开源的,因此它将为您提供触手可及的强大功能,此时您是否能够弄清楚如何完成这项工作取决于您,但同样。这无论如何都不是一个已解决的问题。