自由时间戳音频转录(语音到文本)?

bar*_*ter 7 speech-recognition

是否有任何免费服务/程序可以将音频转录为文本并保留时间戳?

我要转录:

这是VoiceBase的演示链接

(419个诈骗者之间16米的谈话;诈骗者说重口音,所以我不抱怨转录的质量).

Voicebase会转录它,但转录是一个单独的测试块,并没有带时间戳.

我还尝试了谷歌语音"技巧"(将文件记录到语音邮件中,让Google一次转录3分钟),但是,转录再次是单个文本块,而不是时间戳.

我知道狮身人面像,但无法让它发挥作用.

我意识到我可以使用字幕编辑器来创建手动转录,但我正在寻找一种自动化解决方案.

理想情况下,我想采用带时间戳的机器转录并手动编辑它.

Nik*_*rev 5

CMUSphinx可以做到这一点,只需从源代码运行Aligner演示.sphinx4教程中提供最新的sphinx4教程.2014年夏天,CMUSphinx 在sphinx4主干中集成了长音频对齐功能.

这是完全错误的,但与语音库不同,它至少捕获了一些单词.可能手动转录它以及稍后分配时间会更容易.CMUSphinx也可以通过音频到文本对齐来实现.

由重音和短音引起的解码精度存在很多问题,但您也有责任.例如,你永远不应该将8khz bandwith的电话音频转换为mp3.这种转换大大降低了自动语音识别的准确性和整体记录质量.您可以使用其他面向语音的无损编解码器进行压缩.

讨论该主题的其他问题,列出了一些建议.