Google Cloud Speech API识别哪些音频文件类型?

Sol*_*Sol 7 audio google-cloud-platform google-voice-search google-speech-api

我正在尝试使用Google的Cloud Speech API.这里有文档和代码示例:

https://cloud.google.com/speech/docs/basics
https://cloud.google.com/speech/docs/rest-tutorial
Run Code Online (Sandbox Code Playgroud)

如果我将它指向包含的文件audio.raw,但是没有简短的.wav文件,我可以让示例代码运行得很好.

我不知道音频样本文件的格式是什么:

$ file audio.raw 
audio.raw: data
Run Code Online (Sandbox Code Playgroud)

我的.wav文件可能有10秒的音频,我得到一个空的结果.

我知道这个答案.

谷歌云语音api返回空结果

我之前曾问过我的问题,但问题没有答案.

Cloud Speech API支持哪些类型的音频?

我无法想象我必须得到音频文件的属性恰到好处才能使其工作.我假设一个常见的用例,我的是,有人录制会议,不知道录制的参数,只是想要一个文本文件.

Mar*_*ski 5

2020 年 5 月编辑:似乎情况有所改善,此答案不再正确:有关支持的格式(包括 WAV)的详细信息,请参阅新文档


截至 2016 年,WAV似乎不支持 e 格式。这些格式被记录为受支持:

  • LINEAR16 未压缩的 16 位有符号小端样本。这是speech.asyncrecognize 可以使用的唯一编码。
  • FLAC 这是speech.syncrecognize 和StreamingRecognize 的推荐编码,因为它使用无损压缩;因此识别准确性不会受到有损编解码器的影响。仅支持 16 位样本。并非 STREAMINFO 中的所有字段都受支持
  • MULAW 8 位样本,使用 G.711 PCMU/mu-law 压缩 14 位音频样本。
  • AMR 自适应多速率窄带编解码器。采样率必须为 8000 Hz。
  • AMR_WB 自适应多速率宽带编解码器。采样率必须为 16000 Hz。

https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding