nee*_*aji 3 speech-recognition noise noise-reduction pocketsphinx-android
我正在努力提高在嘈杂环境中口袋狮身人面像的识别准确性。但是,用户可能会在可变环境中使用该应用程序。因此,噪音训练不是我想做的事情。
我的问题是,在将语音信号输入到口袋狮身人面像之前,降噪是否一定会降低识别精度?
如果是,降噪后需要保留哪些语音特征?目前我观察到,如果我使用降噪,WER 从~40%(自由形式语言)上升到~60%。
补充一点,降噪后语音听起来确实更好。
Pocketsphinx argfile:
-lm lm_giga_64k_vp_3gram.DMP
-dict lm_giga_64k_vp.sphinx.dic
-hmm voxforge_en_sphinx.cd_cont_5000
Run Code Online (Sandbox Code Playgroud)
这里的想法是证明启用降噪后语音识别准确性的提高,并且直观地说,除非降噪算法完全弄乱了信号的频谱内容,否则理想情况下应该会发生这种情况。
任何帮助,将不胜感激。
目前我观察到,如果我使用降噪,WER 从~40%(自由形式语言)上升到~60%。
这些是非常糟糕的利率,因为:
1)您使用的是过时的模型
2)您使用的是过时的没有降噪的pocketsphinx。
外部降噪通常会降低语音识别的准确性,幸运的是最新的 Pocketsphinx 有自己的降噪模块,这使得它对噪声非常稳健。你只需要更新。要获得最佳结果,您需要:
1)从http://github.com/cmusphinx下载并使用最新的sphinxbase和pocketsphinx
2) 下载最新的声学和语言模型:
这将允许您设置适当的基线。要尝试打开和关闭降噪,您可以使用命令行配置选项:
-remove_noise yes/no
Run Code Online (Sandbox Code Playgroud)
有关如何降低精度(包括噪声稳健性)的进一步建议,您最好提供您想要识别的音频的测试样本。详情请参阅:
http://cmusphinx.sourceforge.net/wiki/faq#qwhy_my_accuracy_is_poor
| 归档时间: |
|
| 查看次数: |
4186 次 |
| 最近记录: |