mik*_*one 24 speech-recognition analysis speech emotion
是否在"音频分析"领域进行了先前的开源工作以检测人声(即尽管有一些背景噪声),确定说话者的性别,可能确定不.发言者,发言者的年龄和发言者的情绪?
我的预感是像CMU Sphinx这样的语音识别软件可能是一个很好的起点,但如果有更好的东西,它会很棒.
www*_*iam 31
我是一名做语音识别研究的研究生.这些是开放的研究问题,不幸的是,我不知道可以开箱即用的开源软件包.
如果您有实施信号处理或机器学习算法的背景知识,您可以尝试使用以下搜索术语查找学术论文:
根据http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#speaker_identification,CMU Sphinx可能是那里领先的开源语音识别器,不支持说话人识别(http:// cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#speaker_identification); 我怀疑它是否具有上述任何其他功能.
一些学术研究人员在线发布他们的代码,和/或可能愿意与您分享.对Google学术搜索的搜索揭示了许多使用Sphinx撰写硕士或博士论文的人,因此这可能是一个很好的起点.
最后,如果您了解一点信号处理,您可以尝试实现非常粗略的性别识别算法,而无需进入语音识别器本身.基本上,男性和女性的声音基本频率不同 - 根据维基百科(http://en.wikipedia.org/wiki/Voice_frequency),男性声音在85-180Hz之间,而女性声音在165Hz-255Hz之间.您可以使用类似的方法sox来确定话语的频谱(使用称为快速傅立叶变换的东西),并将语音分类为"男性"或"女性",这取决于某些汇总统计量,如平均频率(参见http:// classicalconvert. com/tag/sox /).为了使其工作稳健(即使用许多扬声器,麦克风或录音环境),您可以做很多事情.我不确定我能否预测需要多少时间和精力来获得70%的准确度,因为这取决于你的任务的性质; 我的感觉是,90%+肯定会很难.
祝好运!