谷歌的文本到语音(WaveNet)质量会因长文本而降低

Question

谷歌的文本到语音(WaveNet)质量会因长文本而降低

Mic*_*kel 5 text-to-speech google-text-to-speech google-cloud-platform

使用具有瑞典语音的API sv-SE-Wavenet-A,似乎音频的质量随着较长的文本而降低.

短文:

Det ter sig logiskt attmangåttöver直到tvångsfinansieringaven kanal som在åretalltsåtappadesex procent av tittartiden.直到懒妇kommer ingen titta,男人allakommerändåtvingasbetala.

长文本(粗体=上面的短文本):

SVT backade sex procent - endast en tredjedel tittas - tvingasbetalaändåPreliminärasiffrorfrånmätföretagetMMSvisarpåattvuxendagiset SVT tappade sex procent av sin tittartid 2018年.Nu tittas detpåendasten dryg tredjedel avtidenpåSVT,men alla i Sverige tvingas ändåbetlalasedanårsskiftet.SVT.SVT:s tittarsiffror tappade直到34.9%我是kallad tittartidsandel.地区信息,地址:电视,电视,音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐.Siffrorna从很多时候开始,我认为很高兴34.9%,TV4-gruppen为31.9%,Discovery Networks-gruppen为11.9%,北欧娱乐集团为11.6%.Discovery inkluderar Kanal 5 och Nordic Entertaingment TV3.Det ter sig logiskt attmangåttöver直到 tvångsfinansieringaven kanal som在åretalltsåtappadesex procent av tittartiden.直到懒妇kommer ingen titta,男人 allakommerändåtvingasbetala.社会主义基础设施sigpåtvångnärsocialintefrivilligtgörsondesom socialisternavillåstakomma.Detärenren skam att de borgerliga partierna var med och drevigenomtvångsfinansieringenavdetkonsekvenslösavuxendagiset.LämpligåtgärdärattiställetkodaSVT,såfårdesom villbetalaförsdettagöradeleochövrigaslipper.SåkanockåSVTfalla bortiglömskan.Tills detta skerkommerförståsbloggenbevaka SVT:s felsteg,menkomihågattanmälningar,直到granskningsnämndenejskagörasdådedelegitimerar ett sjukt ochheltkonsekvenslöstmeningslöstystem.SVTärettaktiebolag,sombesitterhaskattningsrättavsvenska folket.Nedanståendekommentarerärinteen del av detredaktionellainnehålletoch'användareansvararssjälvaförsinakommentarer.Seävenkommentarsreglerna,inklusive listan med kommentatorer som automatiskt kommer raderaspågrundav brott mot dessa.Genom att kommentera samtycker du till att din kommentar,tidsstämpel,profillänknohpseudonym sparas av Googles Blogger-systemsålängedetaärrelevant,dvssålängeblogginläggetärpublicerat.

API请求

const textToSpeech = require('@google-cloud/text-to-speech')
const client = new textToSpeech.TextToSpeechClient()
client.synthesizeSpeech({
  input: text,
  voice: {
    languageCode: 'sv-SE',
    ssmlGender: 'FEMALE',
    name: 'sv-SE-Wavenet-A',
  },
  audioConfig: {
    audioEncoding: 'MP3',
  },
})

Run Code Online (Sandbox Code Playgroud)

API的结果

音频比较首先播放我在发送短文本时得到的结果.它然后播放相同的文本,但从发送长文本时得到的结果中删除.最后,它们一起播放它们.

这是一个错误或预期？在使用en-US或en-GB语音时,我没有注意到任何质量下降.

~~我注意到瑞典语音使用了与所有其他语音不同的naturalSampleRateHertz,也许这可能导致这种情况？~~

Answer 1

Joa*_*oël 5

这可能与使用MP3 作为编码格式有关，而不是与其他语言的任何采样率差异有关。由于 MP3 是一种有损格式，预计可能会丢失一些质量；短文件和长文件之间的差异可能与使用的MP3 编码算法有关。

我已经检查了Speech Synthesis API，并且“sv-SE-Wavenet-A”声音似乎使用了 24000 的自然采样率，因为我检查过的所有 wavenet（所有 en-US-Wavenet 声音都在 24000同样）。

我建议您将 audioEncoding 标志更改为其他一些编码格式，例如“OGG_OPUS”，这将产生更好的音频质量。

  audioConfig: {
    audioEncoding: 'OGG_OPUS',
  },

Run Code Online (Sandbox Code Playgroud)

如果必须使用 MP3 格式，您可以在您身边更改格式，这样您就可以在 MP3 编码中选择您认为方便的参数，以确保最大的音频质量，同时压缩音频文件。

归档时间：	7 年，2 月前
查看次数：	299 次
最近记录：	6 年，9 月前