使用CMU sphinx4的简单步骤

1 cmusphinx

我想使用CMU sphinx4来转录给定的音频文件.它应该采用.wav格式的音频文件,并用印度英语进行对话.我是CMUSphinx的新手,无法轻易逐步描述该过程.

小智 7

您可能希望查看sphinx api提供的转录器演示.

您只需更改语言模型和声学模型,在config.xml文件中配置相同的代码即可.

  1. 语言模型 - 根据应用程序的用例,您可以使用具有5k字的WSJ语言模型,或者您可以创建自己的模型.要创建自己的landuage模型,您可以在此处阅读更多内容.一种简单的方法是使用lmtool.谷歌"lmtool cmu"

  2. 声学模型 - 如果你想要一个印度口音的应用程序,你需要有印度英语的音频文件,以及相应的转录文件.根据您的使用情况,您可以训练自己的声学模型,也可以调整现有的声学模型.在这里阅读更多.您还可以在线搜索数据集.

  3. 配置config.xml文件中的内容,以便您的应用程序使用您的语言和声学模型.

对于初学者,这些步骤可能会有所帮助 -

  1. 阅读sphinx架构并尝试演示
  2. 研究语言模型是什么.
  3. 阅读有关如何构建语言模型的信息.(lmtool,cmuclmtk等)
  4. 了解声学模型是什么.
  5. 了解如何训练/调整声学模型.
  6. 在java应用程序中配置config.xml文件以使用这些模型.