名词短语的头部发现规则

Joh*_*nak 1 parsing nlp

Penn Treebank格式没有注释名词短语的内部结构,例如

(NP (JJ crude) (NN oil) (NNS prices))
Run Code Online (Sandbox Code Playgroud)

要么

(NP
    (NP (DT the) (JJ big) (JJ blue) (NN house))
    (SBAR
      (WHNP (WDT that))
      (S
        (VP (VBD was)
          (VP (VBN built)
            (PP (IN near)
              (NP (DT the) (NN river)))))))
Run Code Online (Sandbox Code Playgroud)

我想提取头(价格和房子).你知道任何可以做到这一点的工具吗?

aab*_*aab 9

Michael Collins的论文(附录A)包括Penn Treebank的寻找规则,这些规则工作得相当好并且不难实现.然而,它们远非完美,因为它不是最简单的任务.

David Vadas和James Curran关于Penn Treebank中NP结构的工作也可能是相关的: