在.NET中有两个类似的名称空间和程序集用于语音识别.我试图了解这些差异以及何时适合使用其中一种.
从程序集System.Speech(在System.Speech.dll中)有System.Speech.Recognition.System.Speech.dll是.NET Framework类库3.0及更高版本中的核心DLL
还有Microsoft.Speech.Recognition来自程序集Microsoft.Speech(在microsoft.speech.dll中).Microsoft.Speech.dll是UCMA 2.0 SDK的一部分
我发现文档令人困惑,我有以下问题:
System.Speech.Recognition表示它适用于"Windows桌面语音技术",这是否意味着它不能用于服务器操作系统或不能用于大规模应用程序?
UCMA 2.0 Speech SDK(http://msdn.microsoft.com/en-us/library/dd266409%28v=office.13%29.aspx)表示它需要Microsoft Office Communications Server 2007 R2作为先决条件.但是,我在会议和会议上被告知,如果我不需要存在和工作流等OCS功能,我可以使用没有OCS的UCMA 2.0 Speech API.这是真的?
如果我正在为服务器应用程序构建一个简单的识别应用程序(假设我想自动转录语音邮件)而且我不需要OCS的功能,那么两个API之间有什么区别?
我需要编写一个使用语音识别引擎的应用程序 - 内置vista或第三方 - 可以显示单词或短语,并识别用户何时读取它(或其近似值) ).我还需要能够在语言之间快速切换,而无需更改操作系统的语言.
用户将在很短的时间内使用该系统.应用程序需要工作而无需首先将识别引擎训练到用户的声音.
如果这可以在Windows XP或较低版本的Windows Vista上运行,那也太棒了.
可选地,系统需要能够以用户选择的语言将屏幕上的信息读回用户.我可以使用预先录制的画外音来解决此规范,但首选的方法是使用文本到语音引擎.
谁能为我推荐一些东西?
我有15个录音带,其中一个我认为包含了我祖母和我自己说话的旧录音.寻找合适地点的快速尝试并未将其提升.我不想听20个小时的磁带来找到它.该位置可能不在其中一个磁带的开头.大多数内容似乎分为三类 - 按总长度排列,最长的是:静音,语音广播和音乐.
我计划将所有磁带转换为数字格式,然后再次查看录制内容.显而易见的方法是在我做其他事情时在后台播放它们.这对我来说太简单了,所以:是否有任何开源库或其他代码可以让我找到,以便提高复杂性和实用性:
我更喜欢Python,Java或C.
由于我对该领域一无所知,因此未能得到答案,关于搜索词的提示将受到赞赏.
据我所知,我可以轻松地花20多个小时.
我尝试在C#中实现一些简单的语音识别WinForms程序,就像Michael Levy在这里描述的那样:
我遇到的问题是,任何时候我运行程序Windows语音识别打开,并根据我说的做什么.此外,当程序开始时,我必须说"开始聆听"语音识别才能工作.

我的问题是:如果不使用Windows语音识别功能,我如何使用语音识别呢?我根本不需要Windows语音识别UI打开,我需要能够使用识别而无需先说"开始收听".
谢谢你的回答