具有精确时间戳的语音识别？

Question

海社区，

\n\n

i\xc2\xb4ve 使用 Google\xc2\xb4s txt 转语音 API。

\n\n

当我想对 wav 音频文件（从视频中提取）进行编码时，某些单词的时间戳不是很精确。（根据谷歌的分辨率是 0,1 秒 - 但就我而言，有时它更弱/延迟）。

\n\n

我想我可以通过降低音频文件的速度来尝试解决方法，但它\xc2\xb4s或多或少有相同的结果。

\n\n

有人知道一些用于语音识别的精确 API\xc2\xb4s，或者有一些更好地准备音频文件的提示吗？

\n\n

我想一一确定单词，包括它们的确切时间戳。

\n\n

多谢！

\n

Answer 1

现代语音识别算法以对齐精度换取解码速度，因此 Google 的识别器可能不会分配非常准确的时间戳。

使用 Kaldi 等开源识别器可以实现更准确的对齐，请参阅https://github.com/lowerquality/gentle或类似的东西。不过，您必须重新调整 Google 结果才能获得正确的时间戳。