用于语音识别的 Vosk-api python。像谷歌一样的语音适应功能?

Geo*_*kov 4 python-3.x google-speech-to-text-api vosk

因此,Vosk-api 是一款出色的离线语音识别器,具有出色的支持,但在撰写本文时(2020 年 8 月 14 日)文档非常差(或巧妙隐藏)

问题是:是否有任何形式的谷歌语音识别器功能的替代品,它允许通过语音适应进行额外的转录改进?

例如

"config": {
    "encoding":"LINEAR16",
    "sampleRateHertz": 8000,
    "languageCode":"en-US",
    "speechContexts": [{
      "phrases": ["weather"]
    }]
}
Run Code Online (Sandbox Code Playgroud)

对于谷歌来说,这个配置意味着短语“天气”将具有更高的优先级,比如,听起来是否相同。

还是类令牌?我知道它可能无法在 Vosk 中为 python3 实现,但仍然......

以下是参考资料:

https://cloud.google.com/speech-to-text/docs/class-tokens


https://cloud.google.com/speech-to-text/docs/speech-adaptation

Nik*_*rev 5

关于Vosk模型适配的信息可以关注此文档:

https://alphacephei.com/vosk/adaptation

基本上有4个级别:

  1. 使用要识别的单词列表更新小模型
  2. 使用文本中的语言模型离线更新小模型
  3. 更新语言模型和大模型内的字典
  4. 根据您的数据微调声学模型

该过程不是完全自动化的,但您可以在群组中寻求帮助。