如何对文本转换器进行未经训练的语音？

Question

从很小的时候起我就有严重的耳聋,但幸运的是,我可以像普通人一样说话.语言交流对我来说一直很困难,因为我的语音识别能力受损,即使是唇读也是如此.我只是通过阅读电路板,幻灯片,书籍和互联网来经历学校和大学.我目前的软件工程工作做得非常好,但是最近我觉得我必须付出一些努力来改善我的情况.

字幕是我在这个国家的救星,用于了解电视上的电影/节目,我在过去的7年里一直很享受这一点(我现在31岁).

每当我和某些人,甚至是陌生人交谈时,我都强烈地感到需要能够在现实生活中看到字幕.我想开发一个未经训练的语音到文本转换器,作为一个开始,它甚至不必为我拼出精确的单词,只有音节/语音的提示也会没问题.

我已经用谷歌搜索了一段时间,但大多数结果是文本到语音或语音识别的半成品尝试,以给计算机语音命令.我真的想得到一些关于如何开始这个项目的指示.具体来说,我需要一些步骤,比如如何处理音频文件以及我必须采取哪种处理来尽可能快地获得近似语音.

Answer 1

您可能想看看CMU 的 Sphinx 项目，该项目可以实时进行语音到文本的转换。他们有一些演示可以尝试。