Microsoft Speech产品/平台之间的差异

Blu*_*482 6 speech-recognition speech-to-text microsoft-speech-api microsoft-speech-platform microsoft-cognitive

似乎微软提供了不少语音识别产品,我想知道它们之间的差异.

  • Microsoft Speech API或SAPI.但不知何故,Microsoft Cognitive Service Speech API具有相同的名称.

  • 现在好了,Azure上的Microsoft Cognitive Service提供了语音服务APIBing Speech API.我假设语音到文本,两个API是相同的.

  • 然后是System.Speech.Recognition(或桌面SAPI),Microsoft.Speech.Recognition(或Server SAPI)和Windows.Media.Speech.Recognition.这里这里对三者之间的差异有一些解释.但我的猜测是它们是基于HMM的旧语音识别模型,又名神经网络模型,并且所有这三种都可以在没有互联网连接的情况下离线使用,对吧?

  • 对于Azure语音服务和bing语音API,它们是更高级的语音模型吗?但我认为没有办法在我的本地计算机上脱机使用它们,因为它们都需要订阅验证.(即使Bing API似乎有一个C#桌面库 ..)

基本上我想要一个离线模型,它可以进行语音到文本的转录,用于我的会话数据(每个音频录制5-10分钟),可以识别多个扬声器并输出时间戳(或时间编码输出).所有的选择我现在有点困惑.如果有人能向我解释,我将不胜感激,非常感谢!

wol*_*fma 6

一个棘手的问题 - 以及它如此困难的部分原因:我们(微软)似乎提出了一个关于'演讲'和'演讲apis'的语无伦次的故事.虽然我在Microsoft工作,但以下是我对此的看法.我尝试对我的团队中的计划(认知服务演讲 - 客户端SDK)提供一些见解,但我无法预测不那么近的未来的所有方面.

微软早期就认识到语音是一种重要的媒介,因此微软拥有广泛而悠久的历史,可以在其产品中实现语音.有很好的语音解决方案(有本地识别),你列出了一些.

我们正在努力统一这一点,并为您提供一个在Microsoft找到最先进的语音解决方案的地方.这是"Microsoft语音服务"(https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/) - 目前处于预览状态.

在服务方面,它将我们的主要语音技术结合在一起,如语音到文本,文本到语音,意图,翻译(和未来的服务).语音和语言模型不断得到改进和更新.我们正在为此服务开发客户端SDK.随着时间的推移(今年晚些时候),此SDK将在所有主要操作系统(Windows,Linux,Android,iOS)上提供,并支持主要的编程语言.我们将继续增强/改进SDK的平台和语言支持.

这种在线服务和客户端SDK的组合将在今年晚些时候离开预览状态.

我们理解拥有本地识别能力的愿望.在我们的第一个SDK版本中它不会"开箱即用"(它也不是当前预览版的一部分).SDK的一个目标是平台和语言之间的奇偶校验(功能和API).这需要很多工作.离线不是现在的一部分,我不能在这里做任何预测,无论是功能还是时间线......

所以从我的角度来看 - 新的语音服务和SDK是前进的方向.目标是在所有平台上使用统一的API,轻松访问所有Microsoft语音服务.它需要订阅密钥,它要求您"连接".我们正在努力让今年晚些时候(服务器和客户端)都处于预览状态.

希望这可以帮助 ...

沃尔夫冈

  • 请理解,我无法对未发布的服务、产品等发表声明...我无法预测何时/是否可以通过认知服务获得这些内容,但肯定有团队正在研究这些场景,请看一下我们在五月份的 //build 会议上展示了什么:https://www.youtube.com/watch?v=ddb3ZgAp9TA (2认同)
  • 感谢您的回答,新工作看起来很有希望,但我仍然希望 SAPI 不会很快被淘汰/弃用。它轻巧快速,对基于字典的识别非常有帮助。 (2认同)