具有头像嘴唇同步的文本到语音,没有插件

Question

是否存在JavaScript库或产品,它为动画,演讲头像提供文本到语音,不使用闪存或任何其他插件.我的想法是输入文字,化身嘴在播放音频时移动.

目标是跨浏览器,跨设备,无插件,基于网络的谈话聊天头像.

我看着CrazyTalk,这看起来很完美,但遗憾的是,事实证明这依赖于统一引擎.

然后我开始考虑通过将现有文本与语音服务相结合并尝试从音频波中提取音素并将自己的音素字典制作为画布形状来自行编写.这似乎并不存在(即使它确实存在,我也不确定我将如何处理口音移动到音频的时间).

它的2015年,我觉得这样的东西应该已经存在,我不应该试图发明它.

编辑: 现在我正在调查Microsft.Speech.我真的需要在音节中吐出类似IPA的东西,我不确定MS.Speech是否会这样做.TTS波创建很容易.我可以将文本发送到服务器,将语音音节与口点坐标相匹配......如果我可以将这些音节打破.是什么将文本分解为语音音节.

Answer 1

我想我有一个办法。简而言之，不，似乎没有现有的实用程序......但是;-)

我决定使用 Microsoft 语音平台。它比返回音素更好，它提供随附的视素 ID 及其出现的音频位置。所以我可以在服务器端生成一个 wav 文件和一个视位元数据列表并检索它们。现在弄清楚如何同步它们。