ASh*_*lly 17 api audio signal-processing phoneme
你知道那些技术爱好者记录某人声音的电影,他们的软件会把它分成音素吗?然后,他们可以使用哪个键入任何短语,并使其看起来好像目标正在说出来?
该软件是否存在于API版本中?我甚至都不知道谷歌会怎么做.
Jon*_*rdy 14
没有这样的软件.将任意语音分解为其组成音素只是部分解决的问题:语音到文本软件仍然是不完美的,文本到语音也是如此.
这样做是为了重现音色目标的声音.即使您能够完美地分割音频,重新排序音素也会产生具有不自然的节奏和语调的音频,更不用说拼接伪像了.那时你正在进行平滑,时间缩放和音调校正,所有这些都是理论上可以理解的,但在真实世界的数据上表现不佳,特别是当有问题的音频样本像一个音素,还需要保留音色.
基于重音和周围音素的声音中的异音变化在语音方面加剧了这些问题; 为了忠实地产生低质量的音频近似,你需要详细了解目标的语言,重音和语音模式.
此外,你的最终问题是社会工程问题,当涉及到他们所知道的人的声音时,人们不容易愚弄.即使有大量的输入数据,最多也可以得到一个简短的低质量样本,几乎不足以进行对话.
因此,虽然它确实可能,但很难; 即使存在,它也不会总是足够好.
SRI International(为iOS创建Siri的公司)拥有一个名为EduSpeak的SDK。,它将接受音频输入并将其分解为单个音素。我知道这一点是因为大约一个星期前我浏览了该产品的演示。在演示过程中,演示者向我们展示了使用SDK创建的应用程序。该应用程序提供了几行文本供演示者阅读。阅读文本后,该应用程序显示了一个条形图,其中每个条形表示语音中的音素。每个小节的高度代表每个音素的发音得分(演示者不是英语母语者,因此与某些其他音素相比,他在某些音素上得分较低)。演示者还可以单击每个单独的小节,以仅使用原始音频播放该单独的音素。
因此,是的,存在可以按音素划分音频的软件,并且该软件做得很好。现在,是否可以将这些音素重新组合成语音是一个悬而未决的问题。如果最终得到了SDK的试用版,我将尝试一下并告知您。
归档时间: |
|
查看次数: |
8642 次 |
最近记录: |