如何使用Stanford CoreNLP对NER和POS标记预先标记化的文本？

Question

我在我的应用程序中使用了Stanford的CoreNLP命名实体识别器(NER)和词性(POS)标记器.问题是我的代码预先标记了文本然后我需要NER和POS标记每个标记.但是,我只能通过命令行选项找到如何使用命令行选项,但不能以编程方式找到.

有人可以告诉我如何使用斯坦福的CoreNLP以编程方式将NER和POS标记为预先标记的文本吗？

编辑:

我实际上正在使用单独的NER和POS指令.所以我的代码是按斯坦福大学NER和POS软件包中给出的教程中的指示编写的.但我的classpath中有CoreNLP.所以我在我的类路径中有CoreNLP,但是使用了NER和POS包中的教程.

编辑:

我刚刚发现有关于如何在这里设置CoreNLP属性的说明http://nlp.stanford.edu/software/corenlp.shtml但我希望如果有一个快速的方法来做我想要的斯坦福NER和POS标签,所以我不必重新编码一切!

Answer 1

如果设置属性:

tokenize.whitespace = true

然后CoreNLP管道将在空白上进行标记,而不是默认的PTB标记化.您可能还想设置:

ssplit.eolonly = true

这样你就只能在换行符上拆分句子.