构建新的声学模型,词典,语言模型,用于不常见的语言语音识别

Question

我想建立新的声学模型,新词典,新语言模型为" Sinhala Language speech recognition"僧伽罗语言字符是基于Unicode的.例如A =අ,I =ඉ,U =උ,KA =ක,BA =බ.我确实通过了CMUSphinx开发人员教程.但它没有帮助我.它适用于英语.

语言模型应该是ARPA模型.如何将Sinhala Unicode与英语音素映射,以及如何使用不同的声音训练语言模型.有没有可用于生成基于Unicode的语言模型的工具？

Answer 1

总的来说,它并不复杂.首先,您需要在部分上拆分任务:构建语音字典,构建语言模型,构建声学模型.从拼音字典开始.

您需要编写一个Python脚本来将unicode输入映射到音译:

??  r a tt a
?????   e k a ng a yi
???? ???    a v a s a r a d i m a

基本上每个人都写一个相应的音译.这就是您需要做的所有事情,稍后您可以将单词列表提供给脚本并获取cmusphinx格式的字典.本部分将在教程中介绍

有了音译工具后,您可以继续使用语言模型.您需要大量文本来构建语言模型.您可以从维基百科或当地报纸下载文本.然后,您可以使用任何语言模型工具包来创建ARPA模型.所有这些都支持unicode - SRILM,MITLM,IRSTLM,你可以使用它们中的任何一个.本部分将在教程中介绍

第三步是创建一个声学模型.您需要录制音频或分段现有录音并开始训练.本部分也在本教程中介绍