我正在通过Google Cloud的文本到语音API生成语音,我想在说出单词时突出显示它们。
是否可以获取口语或句子的时间戳记?
text-to-speech speech-synthesis google-text-to-speech
google-text-to-speech ×1
speech-synthesis ×1
text-to-speech ×1