语音识别算法如何识别同音字？

Question

我之前正在思考这个问题.现代算法(特别是那些将语音转换为文本的算法)用来确定说哪个同音异义词(例如,也是,或两个？)

他们是否使用情境线索？句子的结构？也许还有每个字平常发音的方式略有差别(例如,我通常持有邻声长2比对).前两者的组合似乎最合理.

Answer 1

他们是否使用情境线索？

是的,ASR系统使用跨字环境.例如,如果前一个单词"正在",则下一个单词可能是"to"而不是"two".ASR系统考虑概率并选择最佳可能的解码变体.

句子的结构？

是的,ASR系统也使用更高级的语言模型来预测给定上下文的可能单词.

也许每个单词通常发音的方式略有不同(例如,我通常将o声音保持为两声而不是声音).

那也是.实际上"太"和"对"的发音完全不同."to"经常被简化为shwa.

如果您对语音识别算法感兴趣,可能需要阅读ASR书籍或查看在线课程.详情请见