我想使用CMU sphinx4来转录给定的音频文件.它应该采用.wav格式的音频文件,并用印度英语进行对话.我是CMUSphinx的新手,无法轻易逐步描述该过程.
小智 7
您可能希望查看sphinx api提供的转录器演示.
您只需更改语言模型和声学模型,在config.xml文件中配置相同的代码即可.
语言模型 - 根据应用程序的用例,您可以使用具有5k字的WSJ语言模型,或者您可以创建自己的模型.要创建自己的landuage模型,您可以在此处阅读更多内容.一种简单的方法是使用lmtool.谷歌"lmtool cmu"
声学模型 - 如果你想要一个印度口音的应用程序,你需要有印度英语的音频文件,以及相应的转录文件.根据您的使用情况,您可以训练自己的声学模型,也可以调整现有的声学模型.在这里阅读更多.您还可以在线搜索数据集.
配置config.xml文件中的内容,以便您的应用程序使用您的语言和声学模型.
对于初学者,这些步骤可能会有所帮助 -
| 归档时间: |
|
| 查看次数: |
1329 次 |
| 最近记录: |