使用开放式耳朵进行语音识别时,准确度非常低

Question

我在我的应用程序中使用开放式耳朵进行语音识别.主要关注的是准确性.在安静的环境中,准确度大约为50%,但在嘈杂的环境中情况会变得更糟.几乎没有任何东西被正确识别.我目前正在使用大约300字的字典文件.我应该寻求哪些方面来提高准确性？到目前为止,我还没有对此做过任何调整.

Answer 1

语音识别应用程序的设计要求您了解语音识别背后的一些基本概念,如声学模型,语法和语音字典.您可以从CMUSphinx教程http://cmusphinx.sourceforge.net/wiki/tutorial中了解更多信息

准确性差是语音应用程序开发的正常状态,有一个过程可以用来改进它并使应用程序有用.该过程如下:

收集您正在尝试识别的语音样本,并创建一个语音数据库来衡量当前的准确性并了解其背后的问题
尝试使用词汇量大小,以改善不同语音提示之间的分离.例如,10个命令的词汇表比300个命令的词汇表更容易识别.
设计您的应用程序的方式是识别的变体数量较少,人们的答案很简单.这项活动被称为VUI(语音用户界面设计),它是一个相当大的领域,有许多精彩的书籍和博客文章.你可以在这里找到一些细节:http://www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765
尝试改善应用程序的声学部分.修改字典以匹配您的语音.调整声学模型以匹配声学特性.有关声学模型适应过程的描述,请参见http://cmusphinx.sourceforge.net/wiki/tutorialadapt.