语音识别API

Question

作为我正在研究的概念证明的一部分,我需要自动转录一些简短的MP3.我目前正在研究云解决方案或Web API服务,将MP3作为简单的HTTP请求发送并接收转录.

我在这里找到的唯一免费/开源解决方案,但演示似乎不起作用(至少不是我需要转录的文件).我已经为呼叫中心找到了一些企业解决方案,但到目前为止我无法简单地集成到一个项目中.

是否有基于网络的语音识别服务？一个能够滤除小噪音的人将是一个加号.

Answer 1

以下是访问Google ASR功能的非官方方法.我刚刚在昨天进行了测试并且它仍然可以工作 - 您可以获得JSON样式ASR输出,其中包含来自以16KHz采样的FLC音频的单词和相关置信度得分.

经过验证,此方法现在不再有效.虽然,谷歌发布了它的V2版本,需要一个API密钥,并且配有它,这是非常低的.可以在此处找到实现:https://github.com/gillesdemey/google-speech-v2 (3认同)

Answer 2

这可能是一个很好的匹配。此外，他们的 techcrunch 简介（请参阅此）列出了竞争对手：SimulScribe、SpinVox、Vlingo、Nuance、Microsoft、Google 其中一些链接可能会有所帮助。

Vlingo、Bing 和 Google 在云端都有识别器，但我不认为他们会让它们公开编程。我相信只有经过授权的客户才能访问它们。

对于概念验证（和小批量），您是否考虑过仅使用 Windows 7 中的桌面语音引擎？System.Speech.Recognition 和 Microsoft.Speech.Recognition 之间有什么区别？可能会有帮助。MS 桌面识别器附带听写语法，听起来这就是您所需要的。

事实上，他们正在停止语音邮件转录服务，但尚不清楚他们的云识别 API 发生了什么。它们似乎已被亚马逊购买，因此人们猜测亚马逊可能会将其 reco 服务添加到亚马逊云服务中 - http://www.theatlantic.com/technology/archive/2011/11/i-see-your-siri -and-raise-you-a-yap-amazon-quietly-snaps-up-speech-recognition-startup/248165/（你意识到我的帖子你说“-1”已经一年多了......） (2认同)