Dzi*_*gas 2 speech-recognition training-data
据我所知,大多数语音识别实现都依赖于二进制文件,这些文件包含他们试图"识别"的语言的声学模型.
那么人们如何编译这些模型呢?
人们可以手动转录大量的演讲,但这需要花费很多时间.即使这样,当给出包含一些语音的音频文件并在文本文件中完整转录它时,单词发音仍然需要以某种方式分开.为了匹配音频的哪些部分对应于文本,仍然需要语音识别.
这是如何聚集的?如果一个人被移交了数千小时的音频文件和他们的完整转录(无论必须手动转录的问题),音频如何以正确的间隔分开,其中一个单词结束而另一个单词开始?不会产生这些声学模型软件已经必须能够语音识别的?
那么人们如何编译这些模型呢?
您可以通过C MUSphinx声学模型培训教程了解过程
人们可以手动转录大量的演讲,但这需要花费很多时间.
这是正确的,模型准备需要花费很多时间.语音是手动转录的.您还可以使用已转录的语音,如带有字幕或转录的讲座或有声读物的电影,并将其用于培训.
即使这样,当给出包含一些语音的音频文件并在文本文件中完整转录它时,单词发音仍然需要以某种方式分开.为了匹配音频的哪些部分对应于文本,仍然需要语音识别.
你需要在5-20秒长的句子上分开语音,而不是单词.语音识别训练可以从称为话语的句子中学习模型,它可以自动分词.这种分割是以无人监督的方式完成的,本质上它是一个聚类,因此它不需要系统识别语音,它只是检测句子中类似结构的块并将它们分配给电话.这使得语音训练比在单独的单词上训练更容易.
这是如何聚集的?如果一个人被移交了数千小时的音频文件和他们的完整转录(无论必须手动转录的问题),音频如何以正确的间隔分开,其中一个单词结束而另一个单词开始?制作这些声学模型的软件是否必须能够进行语音识别?
您需要从一些大小为50-100小时的手动转录记录数据库初始化系统.你可以在这里阅读一些例子.对于许多流行语言,如英语,法语,德语,俄语已经存在这样的数据库.对于一些人来说,他们正在专用资源中进行.
拥有初始数据库后,您可以拍摄大量视频并使用现有模型对其进行细分.这有助于创建数千小时的数据库.例如,这样的数据库是从Ted会谈中训练出来的,你可以在这里阅读.