Python说话人识别

PJC*_*PJC 20 python speech voice-recognition

我有一个音频文件(录制的2人电话).我需要自动分离2个扬声器的声音.我是语音识别的新手,我看了python的wave模块但是找不到任何有用的信息.

请帮助如何开始.还请建议我免费的python库,它将帮助我解决问题.

分离扬声器的任务不是语音识别任务,而是说话人识别任务.在语音通信中,这个任务也被称为说话人日记.Python提供了几种用于扬声器分类和说话人识别的软件包:

来自LIUM的SIDEKIT

来自Idiap的Bob工具包

来自ISCI的演讲者diarization

如果您不限于Python,还有其他:

LIUM扬声器diarization

Kaldi中的说话人识别设置.包括最先进的基于DNN的i向量,称为x向量.

从 numpy 开始，我将把频谱图（基本上是滚动 FFT）视为区分录音中不同声音的好方法。

这是Matplotlib中的频谱图函数：

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

如果您刚刚开始使用 Windows 平台，我会推荐Python(x,y) 。

归档时间：	14 年，9 月前
查看次数：	21810 次
最近记录：	6 年，7 月前

用于将PDF转换为文本的Python模块 378

如何从Django shell执行Python脚本？ 224

os.path.dirname(__ file__)返回空 148

Python请求和持久会话 95

Python for-in循环前面有一个变量 70

'double_scalars'警告中遇到的无效值,可能是numpy 60

Matplotlib:注释三维散点图 47

如何获取烧瓶中get请求的参数值？ 45

从python脚本返回值的最佳方法 43

如何判断哪种Keras型号更好？ 42

基于表单的网站身份验证的权威指南 5311

从数组创建ArrayList 3441

如何更改一个特定提交的提交作者？ 1949

静态类和单例模式之间的区别？ 1708

在Mac上查找(并终止)进程锁定端口3000 1595

何时使用虚拟析构函数？ 1420

PHP中的startsWith()和endsWith()函数 1409

如何检查iOS或macOS上的活动Internet连接？ 1309

在JavaScript中删除数组元素 - 删除vs splice 1304

如何查看仅一个用户提交的git日志？ 1178