高品质,情感,流畅和可变的文字转语音引擎?

jol*_*olt 12 audio voice text-to-speech speech-synthesis

在查看了一些服务/工具之后,我得出了一个结论.大多数文字转语音工具都太技术化,机器人 - 换句话说,质量差的c语音.

是的,最重要的是,看起来它们带有"硬编码"的语音模板,因此缩短了多样性/定制.有些工具可以让你设定阅读速度和音高',但这还不够.

我对情绪方面背后的问题的猜测 - 很难从纯文本中判断情绪,如果只是一两句话就更难判断.此外,好的电脑是机器 - 机器没有情感,但这是一个不同的故事.

困扰我的最重要的是质量.例如,有一些这样的工具,用于切断单词的顶点,从而产生这些技术性的声音.感觉像句子结构有问题.是的,当人们正在研究这样的工具时,我想知道,是什么让他们不再努力改善那些...切断顶点,这不是一个小问题!另外,必须记住,一个好的,高质量的文字转语音软件是值得的,嗯......很多!因此产生了一个非常有利可图的产品.

哦,在流利的情况下,我隐藏着问题,感叹等等.(可能那些不适用于流利,但我不是英语,请原谅我,如果是这样的话.)

我研究过的工具列表:

相当令人印象深刻,但仍有改进空间(++)

- Loquendo:缺乏声音变化,有一些轻微的顶点/流畅性问题(取决于句子),在例子中太多的咳嗽和借口!
- Nuance Vocalizer:虽然仍然缺乏多样性,但一些提供的声音是值得的.


也可以合作获得更多的资源,然后在不同的,但几乎相同的产品上工作( - )

- eSpeak:那里最好的机器人之一,因此节目标识(?!)
- 自然读者(哑巴自动播放!!):嗯,它有一定的流畅性,但仍然有技术感觉开始.
- iSpeech:好笑的时候用英文文本将声音设置为日语.我打赌日本人对此不太满意.
- 倒谱 + 增强的声音 ......加上增强的声音会带来好的蹩脚结果,所以,除了5个以上的声音外,什么都没有增强.
- AT&T:流畅的流利,但是在句子结尾和过多的机器人方面遇到了问题!
- LumenVox TTS:看起来像是来自具有大量语音工具的背景,但仍然会产生机器人声音.
- 还有一些......


如果我错过了值得一看的东西,请分享.可以是免费的,商业的,超级昂贵的...只要它有效,我很感兴趣!

问题(-s)..

  1. 您认为这些声音的质量,流畅性和多样性背后的主要问题是什么? 由于情绪方面难以判断,我不介意你跳过它,但如果你有一两个想法,我不介意你分享你的想法
  2. 文本如何转化为语音? 比如,这些工具背后使用了哪些算法?也许一两个新理论可以派上用场.
  3. 这些驱动器/引擎实际上是不同的引擎/驱动程序还是不同的语音模式?
  4. 它只是我,或者多年来第一批 Text2Speech工具之间的质量变化不大(或根本没有)? 不得不承认,这个老式的Apple工具提供的结果比2000年以上的工具更好,至少在将视频与我所研究的内容进行比较时.)

Mat*_*tag 3

我不知道您是否正在寻找开放的解决方案,但如果您有 Mac,您应该查看OS X 高级语音标记和“ Repeat After Me ”短语构建工具。真的很强大。Mac OS X 10.5 及更高版本中内置的 Alex 语音比其他语音更先进。

在 Mac 上,突出显示以下文本,按住 Control 键单击,然后转到“语音”>“开始讲话”:

You talkin' to me
[[inpt PHON]] [[slnc 500]] [[rate -30]]
+yUW _1tAOl=kIHn ~AX [[pbas +3]]+mIY?
Run Code Online (Sandbox Code Playgroud)

http://www.mattmontag.com/personal/mac-os-x-speech-synthesis-markup