TurboParser的依赖解析输出是什么意思？

Question

TurboParser的依赖解析输出是什么意思？

我一直在尝试使用CMU的TurboParser生成的依赖解析树.它完美无瑕.然而,问题在于文档很少.我需要准确理解解析器的输出.例如,句子" 我解决了统计问题. "生成以下输出:

1   I           _   PRP PRP _   2   SUB
2   solved      _   VBD VBD _   0   ROOT
3   the         _   DT  DT  _   4   NMOD
4   problem     _   NN  NN  _   2   OBJ
5   with        _   IN  IN  _   2   VMOD
6   statistics  _   NNS NNS _   5   PMOD
7   .           _   .   .   _   2   P

Run Code Online (Sandbox Code Playgroud)

我没有找到任何可以帮助理解各列所代表的内容的文档,以及如何创建倒数第二列(2,0,4,2,...)中的索引.另外,我不知道为什么有两列专门用于词性标签.任何帮助(或外部文档的链接)都将提供很大帮助.

PS如果你想试试他们的解析器,这是他们的在线演示.

PPS请不要建议使用斯坦福的依赖解析输出.我对线性编程算法感兴趣,这不是斯坦福的NLP系统所做的.

Answer 1

Mat*_*dic 6

以下是TurboParser输出的每个列的含义:

令牌的id,即句子中的一个基于索引的索引
原始文本中的原始令牌
引理,令牌的lemmatized形式(在这里为空,因为没有设置变形器)
标签(粗粒度词性标签)
标签(细粒度部分的语音标签,其是相同的4与TurboParser)
形态特征(这里为空)
令牌的头部,由其索引表示(根令牌的头部值为0)
关系,它的头部当前令牌

您提供的生成的输出可以表示为基于依赖性的分析树:

基于依赖性的解析树的表示

有关CoNLL-X格式的更多信息:

Answer 2

Pie*_*rre 0

我不知道 TurboParser，但我的猜测是第一个数字表示令牌的 id，第二个数字表示其调控器的 id。也就是说，对于你的例子：

solved(
 I,
 problem(the),
 with(statistics),
 .
)

Run Code Online (Sandbox Code Playgroud)

实际上，这是 CoNLL-X 格式。您可以在这里获取更多信息：http://ilk.uvt.nl/conll/#dataformat

归档时间：	11 年，8 月前
查看次数：	1558 次
最近记录：	10 年，9 月前