具有精确时间戳的语音识别?

Pat*_*ick 5 python speech-recognition google-api

海社区,

\n\n

i\xc2\xb4ve 使用 Google\xc2\xb4s txt 转语音 API。

\n\n

当我想对 wav 音频文件(从视频中提取)进行编码时,某些单词的时间戳不是很精确。(根据谷歌的分辨率是 0,1 秒 - 但就我而言,有时它更弱/延迟)。

\n\n

我想我可以通过降低音频文件的速度来尝试解决方法,但它\xc2\xb4s或多或少有相同的结果。

\n\n

有人知道一些用于语音识别的精确 API\xc2\xb4s,或者有一些更好地准备音频文件的提示吗?

\n\n

我想一一确定单词,包括它们的确切时间戳。

\n\n

多谢!

\n

Nik*_*rev 3

现代语音识别算法以对齐精度换取解码速度,因此 Google 的识别器可能不会分配非常准确的时间戳。

使用 Kaldi 等开源识别器可以实现更准确的对齐,请参阅https://github.com/lowerquality/gentle或类似的东西。不过,您必须重新调整 Google 结果才能获得正确的时间戳。