提高 Google Cloud Speech API 的准确性

Sha*_*que 3 ffmpeg speech-to-text node.js google-cloud-speech

我目前正在 Mac OS 计算机上从网页录制音频,并通过云语音 api 运行它以生成成绩单。但是,结果并不那么准确,并且结果中存在大量缺失的单词。

是否有任何步骤可以帮助我产生更准确的结果?

以下是我将音频转换为文本的步骤:

  1. 使用 Soundflower 将音频输出从我的声卡传送到麦克风。
  2. 从网站播放音频
  3. 使用 quickTime 播放器录制保存为 .m4a 文件的音频。
  4. 使用命令行工具 ffmpeg 将 .m4a 文件转换为 .flac,并将 2 个音频通道(立体声)合并为 1 个音频通道(单声道)。
  5. 将 .flac 文件上传到 Google Cloud Storage。该文件的采样率为 44100Hz,每个样本有 24 位。
  6. 通过 node.js 客户端库使用 longRunningRecognize api,指向 Google 云存储中的文件。

Arm*_*_SC 5

Speech-to-Text API方面,我建议您验证您是否遵循最佳实践建议,例如避免过多的背景噪音和多人同时交谈,因为这些方面会影响服务识别。

我认为你有一个很好的采样率宽松的编解码器;但是,请记住,音频预处理会影响音频质量。在这些情况下,最好避免重新采样,不过,您可以尝试使用不同的音频格式来验证哪种格式可以获得最准确的结果。

此外,您可以使用通常用于提高识别准确性的languageCode短语提示API 属性。