用于检测人类语音,性别,年龄和情绪的音频分析 - 任何先前的开源工作都已完成？

Question

用于检测人类语音,性别,年龄和情绪的音频分析 - 任何先前的开源工作都已完成？

mik*_*one 24 speech-recognition analysis speech emotion

是否在"音频分析"领域进行了先前的开源工作以检测人声(即尽管有一些背景噪声),确定说话者的性别,可能确定不.发言者,发言者的年龄和发言者的情绪？

我的预感是像CMU Sphinx这样的语音识别软件可能是一个很好的起点,但如果有更好的东西,它会很棒.

Answer 1

www*_*iam 31

我是一名做语音识别研究的研究生.这些是开放的研究问题,不幸的是,我不知道可以开箱即用的开源软件包.

如果您有实施信号处理或机器学习算法的背景知识,您可以尝试使用以下搜索术语查找学术论文:

性别认同(有时称为性别认同):从言语发音中预测说话者的性别
年龄识别:预测说话者的年龄
说话人识别:从一组可能的说话者中预测说话话语中最可能的说话者
说话者验证:接受或拒绝属于说话者的话语(想象一下"声纹"型授权系统)
扬声器分类:获取具有多个文件的音频文件,并标记哪个语音段属于哪个扬声器
情绪识别:从言语发音中预测说话者的情绪(一个非常新的研究领域).

根据http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#speaker_identification,CMU Sphinx可能是那里领先的开源语音识别器,不支持说话人识别(http:// cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#speaker_identification); 我怀疑它是否具有上述任何其他功能.

一些学术研究人员在线发布他们的代码,和/或可能愿意与您分享.对Google学术搜索的搜索揭示了许多使用Sphinx撰写硕士或博士论文的人,因此这可能是一个很好的起点.

最后,如果您了解一点信号处理,您可以尝试实现非常粗略的性别识别算法,而无需进入语音识别器本身.基本上,男性和女性的声音基本频率不同 - 根据维基百科(http://en.wikipedia.org/wiki/Voice_frequency),男性声音在85-180Hz之间,而女性声音在165Hz-255Hz之间.您可以使用类似的方法sox来确定话语的频谱(使用称为快速傅立叶变换的东西),并将语音分类为"男性"或"女性",这取决于某些汇总统计量,如平均频率(参见http:// classicalconvert. com/tag/sox /).为了使其工作稳健(即使用许多扬声器,麦克风或录音环境),您可以做很多事情.我不确定我能否预测需要多少时间和精力来获得70%的准确度,因为这取决于你的任务的性质; 我的感觉是,90%+肯定会很难.

祝好运!

归档时间：	15 年，2 月前
查看次数：	22413 次
最近记录：	14 年前