在.Net中对音素的演讲

Question

在.Net中对音素的演讲

Sha*_*mim 5 c# speech-recognition speech voice-recognition phoneme

问题是我想用C#语言获取音频语音的音素.假设你有一个像"x.wav"这样的音频文件,上面写着"你好亲爱的Shamim".我想提取演讲的所有音素和他们的相对时间.如下图所示:

音素编辑器

我使用了System.Speech库(两者recognition和synthesis命名空间),但我找不到我想要的东西.现在别搞错了!我不想要句子的语句"亲爱的Shamim",我想从未知的音频输入中提取音素和英语句子.我试过System.Speech.Recognition但它试图从音频文件中提取出来的话,而不是手机!正如你可能猜到的那样,30%的错误!;)

Answer 1

Ale*_*sky 3

与单词识别相比，音素识别需要一些专门的设置，并且大多数引擎不直接支持它（单音“单词”词典通常不会产生良好的准确性）。造成这种情况的一个重要原因是，音素识别的准确度远低于单词识别，因为单词识别受到更多限制（它会过滤掉所有不映射到真实单词的音素组合，这是其中的大多数）。但HTK确实支持。您可以通过执行 shell 命令（从 C# 执行此操作没有什么坏处）或 pinvoking 库来使用它。

归档时间：	12 年前
查看次数：	3023 次
最近记录：	12 年前