Pat*_*ick 5 python speech-recognition google-api
海社区,
\n\ni\xc2\xb4ve 使用 Google\xc2\xb4s txt 转语音 API。
\n\n当我想对 wav 音频文件(从视频中提取)进行编码时,某些单词的时间戳不是很精确。(根据谷歌的分辨率是 0,1 秒 - 但就我而言,有时它更弱/延迟)。
\n\n我想我可以通过降低音频文件的速度来尝试解决方法,但它\xc2\xb4s或多或少有相同的结果。
\n\n有人知道一些用于语音识别的精确 API\xc2\xb4s,或者有一些更好地准备音频文件的提示吗?
\n\n我想一一确定单词,包括它们的确切时间戳。
\n\n多谢!
\n现代语音识别算法以对齐精度换取解码速度,因此 Google 的识别器可能不会分配非常准确的时间戳。
使用 Kaldi 等开源识别器可以实现更准确的对齐,请参阅https://github.com/lowerquality/gentle或类似的东西。不过,您必须重新调整 Google 结果才能获得正确的时间戳。