Python说话人识别

PJC*_*PJC 20 python speech voice-recognition

我有一个音频文件(录制的2人电话).我需要自动分离2个扬声器的声音.我是语音识别的新手,我看了python的wave模块但是找不到任何有用的信息.

请帮助如何开始.还请建议我免费的python库,它将帮助我解决问题.

Nik*_*rev 15

分离扬声器的任务不是语音识别任务,而是说话人识别任务.在语音通信中,这个任务也被称为说话人日记.Python提供了几种用于扬声器分类和说话人识别的软件包:

来自LIUM的SIDEKIT

来自Idiap的Bob工具包

来自ISCI的演讲者diarization

如果您不限于Python,还有其他:

LIUM扬声器diarization

Kaldi中的说话人识别设置.包括最先进的基于DNN的i向量,称为x向量.


Car*_* F. 4

从 numpy 开始,我将把频谱图(基本上是滚动 FFT)视为区分录音中不同声音的好方法。

这是Matplotlib中的频谱图函数:

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

如果您刚刚开始使用 Windows 平台,我会推荐Python(x,y) 。