Sha*_*mim 5 c# speech-recognition speech voice-recognition phoneme
问题是我想用C#语言获取音频语音的音素.假设你有一个像"x.wav"这样的音频文件,上面写着"你好亲爱的Shamim".我想提取演讲的所有音素和他们的相对时间.如下图所示:

我使用了System.Speech库(两者recognition和synthesis命名空间),但我找不到我想要的东西.现在别搞错了!我不想要句子的语句"亲爱的Shamim",我想从未知的音频输入中提取音素和英语句子.我试过System.Speech.Recognition但它试图从音频文件中提取出来的话,而不是手机!正如你可能猜到的那样,30%的错误!;)
与单词识别相比,音素识别需要一些专门的设置,并且大多数引擎不直接支持它(单音“单词”词典通常不会产生良好的准确性)。造成这种情况的一个重要原因是,音素识别的准确度远低于单词识别,因为单词识别受到更多限制(它会过滤掉所有不映射到真实单词的音素组合,这是其中的大多数)。但HTK确实支持。您可以通过执行 shell 命令(从 C# 执行此操作没有什么坏处)或 pinvoking 库来使用它。
| 归档时间: |
|
| 查看次数: |
3023 次 |
| 最近记录: |