nic*_*cks 7 speech-recognition georgian
因此,和许多其他人一样,我决定创建自己的语音识别引擎.事实证明,这根本不容易,相反,特别是英语语言难以实现,因为我会说,一个单词的写法和发音的方式之间存在着戏剧性的差异.来自格鲁吉亚,我决定为格鲁吉亚语写作语音识别.在格鲁吉亚语中,您可以按照写作方式发音.它就像一个转录.这个事实会明显减轻我的任务吗?或者更难......困难:D?
语音识别是一个复杂的领域,具有许多特定的算法,工具和方法.要创建自己的引擎,您可以从CMUSphinx开源语音识别工具包开始,它允许您:
CMUSphinx已经支持英语,德语,西班牙语,法语,荷兰语,俄语,普通话,冰岛语,意大利语和许多其他语言.添加一个新的非常简单.对于新人来说,通常需要一到两个月的集中工作来实施所需的流程.
要开始访问主页:
http://cmusphinx.sourceforge.net
并阅读教程
http://cmusphinx.sourceforge.net/wiki/tutorial
如果您有任何疑问,请在论坛或此处询问!
并且,当你说格鲁吉亚语时,你只是拼写声音是一种非常普遍的误解.对于世界上大多数语言来说,情况并非如此.要测试假设,请尝试在音频编辑器中录制一些音频,并检查哪些声音实际上是发音的.你会感到惊讶.上面的教程详细介绍了这个问题.
来自佐治亚州的所有人听起来都一样吗?我认为不是......语音识别中的许多重大问题与语言本身没有直接关系:
解决这些问题总是非常困难...最重要的是你有语言/发音来照顾...我不知道格鲁吉亚,但你所描述的可能会使任务更容易但它仍然是一个艰巨的任务.
编辑 - 根据评论:
使用好的图书馆可能会降低时间范围,甚至有助于提高质量......但并不是每个图书馆都有利于语音识别,尽管在其他一些与音频相关的问题上也很出色......
有关参考,请参阅维基百科文章http://en.wikipedia.org/wiki/Speech_recognition-它有一个很好的概述,包括一些链接和书籍参考,这是一个很好的起点......
至于如何设计这样的API,请参阅http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.html