使用stanford-nlp分组一些文本

Question

我正在使用stanford核心NLP,我使用这一行来加载一些模块来处理我的文本:

props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");

我可以加载一个模块来分块文本吗？

或者任何使用stanford核心来改变某些文本的替代方法的建议？

谢谢

Answer 1

我认为解析器输出可用于获取NP块.查看Stanford Parser网站上提供示例输出的无上下文表示.

Answer 2

要与Stanford NLP一起使用分块,您可以使用以下包:

YamCha:基于SVM的NP-chunker,也可用于POS标记,NER等.C/C++开源.赢得了CoNLL 2000共享任务.(比最终用户的专用POS标签更不自动.)
Mark Greenwood的名词Phrase Chunker:Ramshaw和Marcus的Java重新实现(1995).
fnTBL:在C++中快速灵活地实现基于转换的学习.包括POS标记器,还包括NP分块和一般分块模型.

这些只是进行NP分块的包.例如:Mark Greenwood的Noun Phrase Chunker,提供了一个GATE包装器,但没有使用StanfordNLP解析树等的任何包装器.我认为至少可以进行基于正则表达式的分块 - 可以有一个自定义的块注释器添加到管道中.在POS上使用TokenRegex说一个自定义注释器,在管道中"解析"后放置.使得解析树可以具有一个节点"NNP",在该节点下,分块的令牌在那里.希望有人为coreNLP在某处做过. (2认同)