因此,Vosk-api 是一款出色的离线语音识别器,具有出色的支持,但在撰写本文时(2020 年 8 月 14 日)文档非常差(或巧妙隐藏)
问题是:是否有任何形式的谷歌语音识别器功能的替代品,它允许通过语音适应进行额外的转录改进?
例如
"config": {
"encoding":"LINEAR16",
"sampleRateHertz": 8000,
"languageCode":"en-US",
"speechContexts": [{
"phrases": ["weather"]
}]
}
Run Code Online (Sandbox Code Playgroud)
对于谷歌来说,这个配置意味着短语“天气”将具有更高的优先级,比如,听起来是否相同。
还是类令牌?我知道它可能无法在 Vosk 中为 python3 实现,但仍然......
以下是参考资料:
https://cloud.google.com/speech-to-text/docs/class-tokens
https://cloud.google.com/speech-to-text/docs/speech-adaptation