PJC*_*PJC 20 python speech voice-recognition
我有一个音频文件(录制的2人电话).我需要自动分离2个扬声器的声音.我是语音识别的新手,我看了python的wave模块但是找不到任何有用的信息.
请帮助如何开始.还请建议我免费的python库,它将帮助我解决问题.
Nik*_*rev 15
分离扬声器的任务不是语音识别任务,而是说话人识别任务.在语音通信中,这个任务也被称为说话人日记.Python提供了几种用于扬声器分类和说话人识别的软件包:
如果您不限于Python,还有其他:
Kaldi中的说话人识别设置.包括最先进的基于DNN的i向量,称为x向量.
从 numpy 开始,我将把频谱图(基本上是滚动 FFT)视为区分录音中不同声音的好方法。
这是Matplotlib中的频谱图函数:
http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram
如果您刚刚开始使用 Windows 平台,我会推荐Python(x,y) 。