Ran*_*Ran 9 audio speech text-to-speech
我正在构建一个简单的程序,用人声说出电话号码.
为此,我预先录制了每个数字(使用不同的语调),当我得到一个数字时,我加入音频文件并一起播放,并在数字之间添加一些静音.
但是,这听起来并不平滑或自然.
我尝试对文件进行增益和速度规范化,但感觉我需要以某种"智能"方式加入它们,以便过渡听起来很自然.
我找了一些算法来做到这一点,但没有找到任何东西.
是否有一种已知的方法?
谢谢.
归档时间: |
|
查看次数: |
633 次 |
最近记录: |