javascript 音频 API -- 分析音频文件以检测准确的声音，用于口型同步

Question

我见过像waveform.js这样的东西，它使用Web Audio API来显示波形数据，还有许多其他工具可以用JavaScript分析音频文件的确切声音点。

如果是这样，应该可以使用这种分析能力来使用 JavaScript 进行实时口型同步，即通过简单地使用音频上下文，让动画角色在用户说话的同时说话，以及阅读数据点一些如何找到正确的声音。

所以问题变成了，更具体地说：

我如何准确地分析音频数据以提取在特定时间戳发出的确切声音？

我想获得类似Rhubarb Lip Sync的最终结果，除了 JavaScript，而且是实时的。不一定要精确，但要尽可能接近。

Answer 1

没有一种算法可以让您 100% 正确地检测音素。

您没有说明这是用于实时使用还是离线使用，但这会强烈影响您使用哪种算法。

基于梅尔频率倒谱系数的算法预计可以提供大约 80% 的准确度，这对于视频游戏等来说已经足够了。

基于协同神经网络的深度学习系统将为您提供出色的识别能力，但它们还不是实时系统。

例如，您可以从Meyda开始，并将您正在收听的信号的音频特征与每个音素的人工编目音频特征库进行比较。