丰富转录时间标记 (RTTM) 文件是以空格分隔的文本文件,每行包含一圈,每行包含十个字段:
例如:
SPEAKER CMU_20020319-1400_d01_NONE 1 130.430000 2.350 <NA> <NA> juliet <NA> <NA>
SPEAKER CMU_20020319-1400_d01_NONE 1 157.610000 3.060 <NA> <NA> tbc <NA> <NA>
SPEAKER CMU_20020319-1400_d01_NONE 1 130.490000 0.450 <NA> <NA> chek <NA> <NA>
Run Code Online (Sandbox Code Playgroud)
写入rttm文件:
with open(rttmf, 'wb') as f:
for turn in turns:
fields = ['SPEAKER', turn.file_id, '1', format_float(turn.onset, n_digits), format_float(turn.dur, n_digits),
'<NA>', '<NA>', turn.speaker_id, '<NA>', '<NA>']
line = ' '.join(fields)
f.write(line.encode('utf-8'))
f.write(b'\n')
Run Code Online (Sandbox Code Playgroud)
参考网址: https://github.com/nryant/dscore https://github.com/nryant/dscore/blob/824f126ae9e78cf889e582eec07941ffe3a7d134/scorelib/rttm.py#L103
您可以在 NIST 的The 2009 (RT-09) Rich Transcription Meeting Recognition Evaluation Plan(存档版本,原始链接已失效)的附录 A 中找到此内容。
还有https://catalog.ldc.upenn.edu/docs/LDC2004T12/RTTM-format-v13.pdf与@bernlim 给出的规范不同,主要是省略了第 10 个字段“SLAT”。我发现有些工具确实不输出 10 个字段而是 9 个字段,并且用于评分 diarizations 的 md-eval-v21.pl 不会费心读取第 10 个字段。
| 归档时间: |
|
| 查看次数: |
2886 次 |
| 最近记录: |