Google Speech API 单句

Question

Google Speech API 的SingleUtterance工作原理是什么？根据文档，这是谷歌确定说话者何时说出单个话语的方式。我明白它的作用，但我想知道如何？API 是否只是等待一段时间的“无语”音频？如果是这样，无声音频持续多长时间会触发话语结束？

它是否有其他类型的 AI 算法可以帮助确定某人何时停止说话？

谢谢

Answer 1

我不认为细节被暴露，在我看来，音频结束的检测是 API 的决定。相反，它提供了识别何时做出此类决定的方法。

在正常情况下，流将继续侦听和处理音频，直到直接关闭流或超出流的限制长度。在这种情况下，不需要设置 single_utterance。

当您需要它（例如语音命令）并设置 single_utterance=true 时，API 会决定何时完成识别并向您的客户端发送 END_OF_SINGLE_UTTERANCE事件并停止识别。