为什么 Penn Treebank POS 标签集对“to”这个词有一个单独的标签?

Sag*_*ire 7 nlp pos-tagger

宾州树库标记集有一个单独的标签TO供“到”一词,无论是否它在介词意义(如使用I went to school)或不定式感(如I want to eat)。从整体 NLP 的角度来看,这有什么目的?单独标记不定式“to”具有直观意义,但我没有看到在单个标签中组合不定式和介词背后的逻辑。

谢谢,如果这不符合堆栈溢出指南,我们深表歉意。

art*_*omp 2

不同的语料库提供不同级别的粒度。例如,将其与英国国家语料库进行比较,其中包含to三个不同标签

我相信这可能是语料库标记实践的特性,而不是出于特定的 NLP 性能目的。不难想象这是Penn Treebank 项目 POS 指南的设计决策。(联系本文作者以获取进一步说明。)

为了使词性标记集具有针对单词“to”的单独标记,有时需要将“to”标记为介词,并且有时需要使用“不定式标记”的不同标记来标记“to”。为了实现这一点,人类标记者必须消除“to”这两个角色之间的歧义。一些棘手的情况(需要语法判断)可能需要一些额外的人力时间来消除歧义,考虑到标记的语料库的大小,这也可能导致一些错误标记。如果估计信息增益(来自必须消除歧义的粒度)不是那么大,或者如果估计潜在的标记错误太多,则这种权衡可能会在效率和正确性方面犯更多错误。