将语音音频连接到声音连续的算法?

Ran*_*Ran 9 audio speech text-to-speech

我正在构建一个简单的程序,用人声说出电话号码.

为此,我预先录制了每个数字(使用不同的语调),当我得到一个数字时,我加入音频文件并一起播放,并在数字之间添加一些静音.

但是,这听起来并不平滑或自然.

我尝试对文件进行增益和速度规范化,但感觉我需要以某种"智能"方式加入它们,以便过渡听起来很自然.

我找了一些算法来做到这一点,但没有找到任何东西.

是否有一种已知的方法?

谢谢.

Nik*_*rev 8

该算法称为PSOLA.有像TD-PSOLA这样的变化.

总的来说,这里有很多东西 - 如何根据声学特性,源语调和所需的目标语调来决定加入哪些项目.实现起来非常复杂,因此最好使用现有的开源TTS系统和现有的合成器,它们涵盖了所有内容.你可以检查festvoxOpenmary.

  • 单词之间的沉默总是听起来不自然,在真实的演讲中非常罕见.如果你想要综合自然语音并且你真正关心你的用户,你应该连续加入单词. (3认同)