创建50,000字的ARPA语言模型文件

Chr*_*ina 13 speech-recognition n-gram cmusphinx language-model

我想用近50,000个单词创建一个ARPA语言模型文件.我无法通过将文本文件传递给CMU语言工具来生成语言模型.是否有其他链接可用于获取这些单词的语言模型?

Hal*_*lle 10

我以为我会回答这个,因为它有几张选票,虽然基于克里斯蒂娜的其他问题我不认为这对她来说是一个有用的答案,因为一个50,000字的语言模型几乎肯定没有一个可接受的词由于硬件限制,目前使用这种语言模型格式的iOS应用程序内识别系统的错误率或识别速度(或者很可能甚至长时间运行).我想这是值得记录,因为我认为它可能是帮助他人谁正在使用一个平台,保持词汇这个尺寸在内存中更多的是一种可行的事情,也许这将是未来的设备型号可能为好.

没有基于网络的工具,我知道像Sphinx知识库工具,它将挖掘一个50,000字的明文语料库并返回一个ARPA语言模型.但是,你可以得到一个已完成64000字DMP语言模型下面的步骤(可与狮身人面像在命令行或以同样的方式为ARPA .lm文件等平台实现使用):

  1. 从CMU演讲网站下载此语言模型:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/HUB4_trigram_lm.zip

在该文件夹中有一个名为language_model.arpaformat.DMP的文件,它将是您的语言模型.

  1. 从CMU语音网站下载此文件,该网站将成为您的发音词典:

https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/pocketsphinx/model/lm/en_US/cmu07a.dic

将cmu07a.dic的内容转换为全部大写字母.

如果你愿意,你也可以通过删除语料库language_model.vocabulary中找不到的任何单词来减少发音词典(这将是一个正则表达式问题).这些文件适用于Sphinx英语声学模型之一.

如果使用50,000字的英语语言模型的愿望是由进行某种广义的大词汇量语音识别而不是需要使用非常具体的50,000个单词(例如,像医学字典或50,000条目联系人列表),如果硬件可以处理它,这种方法应该给出这些结果.可能会有一些需要更改的Sphinx或Pocketsphinx设置,这将通过此大小的模型优化搜索.