小智 3
虽然分离各个扬声器是一个相当困难的问题,但您可以在有停顿的地方自动分割音频。这将产生一系列可能更容易管理的文件,因为发言者经常在停顿之间交替。
这种方法需要开源 Julius 语音识别解码器包。许多 Linux 软件包存储库中都提供了此功能。我使用 Ubuntu multiverse 存储库。
这是网站: http: //julius.sourceforge.jp/en_index.php
第0步:安装朱利叶斯
sudo apt-get install julius
Run Code Online (Sandbox Code Playgroud)
步骤一:分割音频
adintool -in file -out file -filename myRecording.wav -startid 0 -freq 44100 -lv 2048 -zc 30 -headmargin 600 -tailmargin 600
Run Code Online (Sandbox Code Playgroud)
-startid是将附加到文件名的起始段号
-freq是源音频文件的采样率
-lv是音频级别,高于该级别语音检测将处于活动状态
-zc是零交叉点,高于该交叉点语音检测将处于活动状态
-headmargin和-tailmargin是每个音频片段之前和之后的静音量
请注意,-lv 和 -zc 必须根据您的特定录音属性进行调整,而 -headmargin 和 -tailmargin 则必须根据您的特定扬声器风格进行调整。但上面给出的值对于我过去的录音效果很好。
这是文档:http://julius.sourceforge.jp/juliusbook/en/adintool.html
根据我的经验,使用压缩和标准化对音频进行预处理可以提供更好的结果,并且需要较少的 Julius 参数调整。建议执行这些初始步骤,但不是必需的。
这种方法需要开源 SoX 音频工具包。许多 Linux 软件包存储库中也提供了此功能。我使用 Ubuntu Universe 存储库。
这是网站: http: //sox.sourceforge.net
步骤-2:安装SoX
sudo apt-get install sox
Run Code Online (Sandbox Code Playgroud)
步骤-1:预处理音频
sox myOriginalRecording.wav myRecording.wav gain -b -n -8 compand 0.2,0.6 4:-48,-32,-24 0 -64 0.2 gain -b -n -2
Run Code Online (Sandbox Code Playgroud)
Gain -b -n将音频平衡并标准化到给定级别
compand根据参数压缩(在本例中)音频
请注意,compand 可能需要一些时间才能完全理解参数。但上面给出的值对于我过去的录音效果很好。
这是文档:http://sox.sourceforge.net/sox.html
虽然这不会让您识别每个扬声器,但它将大大简化通过耳朵进行识别的任务,这可能最终成为一段时间内唯一的选择。但我确实希望您能找到实用的解决方案(如果已经可用)。