Mos*_*man 5 speech-recognition speech-to-text google-cloud-platform google-speech-api
我开始使用Google Speech API转录音频。
正在转录的音频包含许多个接一个的号码。
例如273298
但是转录又回来了270-3298
我的猜测是它将其解释为某种电话号码。
我想要的是未解析的输出,例如“我自己可以处理和解析的”“二十七三二九十八”。
对这种事情有设置或支持吗?
谢谢
小智 5
所以我遇到了完全相同的问题,我认为我们找到了解决方案。如果您使用英语作为输入,请在处理数字时切换到 en-PH。然后,Google 不会将结果格式化为美国电话号码,也不会尝试在其中添加额外的数字。
尝试传递带有一些短语提示的语音上下文。如何使用它记录在此处:https://cloud.google.com/speech/docs/basics#phrase-hints
为其提供您想要识别的拼写数字。
"speech_context": {
"phrases":["zero", "one", "two", ... "nine", "ten", "eleven", ... "twenty", "thirty,..., "ninety"]
}
Run Code Online (Sandbox Code Playgroud)
这不能保证有效,但可能会有所帮助。