有没有办法将语音直接转换为SSML?

Tri*_*ica 8 text-to-speech speech-synthesis speech-to-text ssml alexa-voice-service

正如一个人能够使用各种语音到文本的"听写"工具将口语转换成相应的文本,我想知道是否有类似的工具将口语转换成相应的SSML.也就是说,除了与说话者的声音中存在的任何语调,韵律,暂停/休息,变形等相关的相关SSML标签之外,它还将提供文本.

小智 -3

我致力于构建语音应用程序。在我最近正在进行的一个项目中,我们需要文本听起来完全正确,以及所有相关的语调、韵律、停顿/中断、音调变化等。经过广泛的研究,我们发现使文本听起来像这样的唯一方法由真人说话要么使用 SSML(仍然不完美),要么使用录制的 mp3。

如果您想获得项目的真实感受,那么执行该项目的最佳方法就是利用人类。我建议您录制 mp3(/由专业人士录制),而不是尝试从语音获取 SSML。

我们使用 SSML 的原因正是计算机无法理解人类语音的相关语调、韵律、停顿/停顿、音调变化等。

如果您的目标是获得 SSML,那么最好的方法是将文本转换为 SSML。为此,我建议看一下这里:

W3C SSML

谷歌SSML

亚马逊SSML

据我们所知,这是 2018 年 7 月中旬。如果有人有更多信息,请添加到这个答案中。

希望这有帮助:3

  • 问题是关于使用某种语音转文本 (SSML) 生成 SSML。有很多可用的 STT 引擎,但它们为您提供纯文本而不是 SSML。 (7认同)