Mic*_*kel 5 text-to-speech google-text-to-speech google-cloud-platform
使用具有瑞典语音的API sv-SE-Wavenet-A,似乎音频的质量随着较长的文本而降低.
短文:
Det ter sig logiskt attmangåttöver直到tvångsfinansieringaven kanal som在åretalltsåtappadesex procent av tittartiden.直到懒妇kommer ingen titta,男人allakommerändåtvingasbetala.
长文本(粗体=上面的短文本):
SVT backade sex procent - endast en tredjedel tittas - tvingasbetalaändåPreliminärasiffrorfrånmätföretagetMMSvisarpåattvuxendagiset SVT tappade sex procent av sin tittartid 2018年.Nu tittas detpåendasten dryg tredjedel avtidenpåSVT,men alla i Sverige tvingas ändåbetlalasedanårsskiftet.SVT.SVT:s tittarsiffror tappade直到34.9%我是kallad tittartidsandel.地区信息,地址:电视,电视,音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐,电视音乐.Siffrorna从很多时候开始,我认为很高兴34.9%,TV4-gruppen为31.9%,Discovery Networks-gruppen为11.9%,北欧娱乐集团为11.6%.Discovery inkluderar Kanal 5 och Nordic Entertaingment TV3.Det ter sig logiskt attmangåttöver直到 tvångsfinansieringaven kanal som在åretalltsåtappadesex procent av tittartiden.直到懒妇kommer ingen titta,男人 allakommerändåtvingasbetala.社会主义基础设施sigpåtvångnärsocialintefrivilligtgörsondesom socialisternavillåstakomma.Detärenren skam att de borgerliga partierna var med och drevigenomtvångsfinansieringenavdetkonsekvenslösavuxendagiset.LämpligåtgärdärattiställetkodaSVT,såfårdesom villbetalaförsdettagöradeleochövrigaslipper.SåkanockåSVTfalla bortiglömskan.Tills detta skerkommerförståsbloggenbevaka SVT:s felsteg,menkomihågattanmälningar,直到granskningsnämndenejskagörasdådedelegitimerar ett sjukt ochheltkonsekvenslöstmeningslöstystem.SVTärettaktiebolag,sombesitterhaskattningsrättavsvenska folket.Nedanståendekommentarerärinteen del av detredaktionellainnehålletoch'användareansvararssjälvaförsinakommentarer.Seävenkommentarsreglerna,inklusive listan med kommentatorer som automatiskt kommer raderaspågrundav brott mot dessa.Genom att kommentera samtycker du till att din kommentar,tidsstämpel,profillänknohpseudonym sparas av Googles Blogger-systemsålängedetaärrelevant,dvssålängeblogginläggetärpublicerat.
API请求
const textToSpeech = require('@google-cloud/text-to-speech')
const client = new textToSpeech.TextToSpeechClient()
client.synthesizeSpeech({
input: text,
voice: {
languageCode: 'sv-SE',
ssmlGender: 'FEMALE',
name: 'sv-SE-Wavenet-A',
},
audioConfig: {
audioEncoding: 'MP3',
},
})
Run Code Online (Sandbox Code Playgroud)
API的结果
音频比较首先播放我在发送短文本时得到的结果.它然后播放相同的文本,但从发送长文本时得到的结果中删除.最后,它们一起播放它们.
这是一个错误或预期?在使用en-US或en-GB语音时,我没有注意到任何质量下降.
我注意到瑞典语音使用了与所有其他语音不同的naturalSampleRateHertz,也许这可能导致这种情况?
这可能与使用MP3 作为编码格式有关,而不是与其他语言的任何采样率差异有关。由于 MP3 是一种有损格式,预计可能会丢失一些质量;短文件和长文件之间的差异可能与使用的MP3 编码算法有关。
我已经检查了Speech Synthesis API,并且“sv-SE-Wavenet-A”声音似乎使用了 24000 的自然采样率,因为我检查过的所有 wavenet(所有 en-US-Wavenet 声音都在 24000同样)。
我建议您将 audioEncoding 标志更改为其他一些编码格式,例如“OGG_OPUS”,这将产生更好的音频质量。
audioConfig: {
audioEncoding: 'OGG_OPUS',
},
Run Code Online (Sandbox Code Playgroud)
如果必须使用 MP3 格式,您可以在您身边更改格式,这样您就可以在 MP3 编码中选择您认为方便的参数,以确保最大的音频质量,同时压缩音频文件。
| 归档时间: |
|
| 查看次数: |
299 次 |
| 最近记录: |