She*_*har 3 speech-recognition speech-to-text cmusphinx
我正在尝试将语音识别和说话人智能化技术结合起来,以确定对话中有多少发言者以及哪位发言者说了什么.
为此我使用CMU Sphinx和LIUM Speaker Diarization.
我可以单独运行这两个工具,即我可以运行Sphinx 4并从音频获取文本输出并运行LIUM工具包并获取音频片段.
现在我想结合这两个并获得如下输出:
s0 : this is my first sentence.
s1 : this is my reply.
s2: i do not what you are talking about
Run Code Online (Sandbox Code Playgroud)
有谁知道如何结合这两个工具包?
运行diarization工具以获取每个扬声器的分段时间.它们看起来像这样:
file1 1 16105 217 M S U S9_file1
file1 1 16322 1908 M S U S9_file1
file2 1 18232 603 M S U S9_file2
Run Code Online (Sandbox Code Playgroud)
像16106和217这样的数字是段开始和段长度.解析文本输出并在数组中存储时间.
然后使用时间在片段上分割原始音频.
用Sphinx4分别处理每个片段并显示转录.
可选地,对每个扬声器的片段运行扬声器适配,并使用适合扬声器的模型再次处理每个片段.
| 归档时间: |
|
| 查看次数: |
2554 次 |
| 最近记录: |