如何结合语音识别和扬声器分类？

Question

我正在尝试将语音识别和说话人智能化技术结合起来,以确定对话中有多少发言者以及哪位发言者说了什么.

我可以单独运行这两个工具,即我可以运行Sphinx 4并从音频获取文本输出并运行LIUM工具包并获取音频片段.

现在我想结合这两个并获得如下输出:

s0 : this is my first sentence.
s1 : this is my reply.
s2: i do not what you are talking about

有谁知道如何结合这两个工具包？

Answer 1

运行diarization工具以获取每个扬声器的分段时间.它们看起来像这样:

file1 1 16105 217 M S U S9_file1
file1 1 16322 1908 M S U S9_file1
file2 1 18232 603 M S U S9_file2

像16106和217这样的数字是段开始和段长度.解析文本输出并在数组中存储时间.

然后使用时间在片段上分割原始音频.

用Sphinx4分别处理每个片段并显示转录.

可选地,对每个扬声器的片段运行扬声器适配,并使用适合扬声器的模型再次处理每个片段.