以编程方式,是否有可能采用某人的语音样本并产生可用于创建合成语音的独特音调/属性?
例如,人A记录自己.从该语音样本产生独特的音调,并且正在变成合成语音.这允许人们在文本到语音软件中使用这种合成语音,编写他们想要的任何文本,这些文本将被人A语音读取.
今天是否有可能?我知道有些公司专业地这样做,但一般情况下,一个软件可以做到这一点吗?
使用说话人适应方法,您可以通过相对较少的训练样本获得一些结果,但您仍然应该拥有该人的数百个句子 - 最好带有音标。
我们曾经将其作为一个小型实验室练习,让学生录制自己的声音并使用 HTS 训练语音模型 ( http://hts.sp.nitech.ac.jp/ )。使用 HTS 的“最简单”方法是从此页面下载“依赖于说话者的训练演示”,并用您自己的录音(相同句子!)替换训练语音样本。不过,我们用我们自己的包为另一种语言做了这个。
我认为 MaryTTS ( http://mary.dfki.de/ ) 有一些更方便的工具来协助完成此过程,但我从未使用过。
但仍然 - 对于高质量的声音,您应该有数千个录制的句子。