将语音音频连接到声音连续的算法？

Question

我正在构建一个简单的程序,用人声说出电话号码.

为此,我预先录制了每个数字(使用不同的语调),当我得到一个数字时,我加入音频文件并一起播放,并在数字之间添加一些静音.

但是,这听起来并不平滑或自然.

我尝试对文件进行增益和速度规范化,但感觉我需要以某种"智能"方式加入它们,以便过渡听起来很自然.

我找了一些算法来做到这一点,但没有找到任何东西.

是否有一种已知的方法？

谢谢.

Answer 1

该算法称为PSOLA.有像TD-PSOLA这样的变化.

总的来说,这里有很多东西 - 如何根据声学特性,源语调和所需的目标语调来决定加入哪些项目.实现起来非常复杂,因此最好使用现有的开源TTS系统和现有的合成器,它们涵盖了所有内容.你可以检查festvox或Openmary.