标签: opennlp

NLP查找实体之间的关系

我目前的理解是，可以使用诸如OpenNLP，Stanford NLP之类的工具包从文本文档中提取实体。

但是，有没有办法找到这些实体之间的关系？

例如，考虑以下文本：

“正如你们中某些人所知，我上周在欧洲高能物理实验室CERN呆了，去年7月发现了著名的希格斯玻色子。每次去CERN时，我都会感到一种崇高的敬意。多年来，我在1990年代后期作为访问科学家在这里呆了三个月，从事早期宇宙物理学的工作，试图弄清楚如何将我们今天看到的宇宙与婴儿期发生的事情联系起来。”

实体：我（作者），欧洲核子研究组织（CERN），希格斯玻色子

关系：-我“ 访问 ” CERN-CERN“ 发现 ”希格斯玻色子

谢谢。

text nlp information-extraction stanford-nlp opennlp

Sou*_*nta

2019 02-27

5
推荐指数

2
解决办法

4405
查看次数

使用OpenNLP从解析的内容中删除停用词

我已经使用此链接中提供的OpenNLP解析器代码解析了文档，并且得到了以下输出：

(TOP (S (NP (NN Programcreek)) (VP (VBZ is) (NP (DT a) (ADJP (RB very) (JJ huge) (CC and) (JJ useful)) (NN website)))))

Run Code Online (Sandbox Code Playgroud)

我只想从中提取有意义的词，这意味着我想删除所有停用词，因为我想进一步根据这些有意义的词进行分类。您能否建议我如何从解析的输出中删除停用词？

最后我想得到以下输出

   (TOP (S (NP (NN Programcreek)) (JJ useful)) (NN website)))))

Run Code Online (Sandbox Code Playgroud)

请帮助我，如果OpenNLP无法实现，那么建议我使用其他任何Java库进行自然语言处理。因为我的主要目的是解析文档并仅获取有意义的单词。

java nlp stop-words opennlp

use*_*214

2015 08-16

5
推荐指数

2
解决办法

4555
查看次数

使用openNLP的部分语音标记出错

我有一个Ubuntu Quantal 12.10服务器64位实例.我正在使用openNLP进行句子的POS标记.

我正在使用带有"Parallel Lapply setup"的openNLP进行POS标记.它在RStudio环境中运行良好.但在Ubuntu环境中,它显示以下错误.

Error in do.call(c, clusterApply(cl, x = splitList(X, length(cl)), fun = lapply,   :
  second argument must be a list

Run Code Online (Sandbox Code Playgroud)

对我面临的问题有任何建议吗？

这是我正在使用的代码:

tagPOS <-  function(x, ...) {

    s <- as.String(x)

    word_token_annotator <- Maxent_Word_Token_Annotator()

    a2 <- Annotation(1L, "sentence", 1L, nchar(s))

    a2 <- annotate(s, word_token_annotator, a2)

    a3 <- annotate(s, PTA, a2)

    a3w <- a3[a3$type == "word"]

    POStags <- unlist(lapply(a3w$features, `[[`, "POS"))

    POStagged <- paste(sprintf("%s/%s", s[a3w], POStags), collapse = " ")

    list(POStagged = POStagged, POStags = POStags)

  }



  cl …

Run Code Online (Sandbox Code Playgroud)

cloud command-line r pos-tagger opennlp

Sid*_*rth

2013 09-04

5
推荐指数

0
解决办法

1340
查看次数

如何在 NLP 框架中执行段落边界检测？

我正在努力从出现在英文报纸上的各种广告中提取人名。

但是，我注意到在提取其中存在的名称之前，我需要确定广告的边界，因为我只需要提取第一个出现的名称。我从斯坦福 NLP 开始。我成功提取了名称。但我陷入了识别段落边界的困境。

有没有办法识别段落边界。?

text-processing nlp stanford-nlp opennlp apache-stanbol

kir*_*ran

2015 08-07

5
推荐指数

1
解决办法

2706
查看次数

OpenNLP:外部名称无法识别

我刚开始使用openNLP来识别名字.我正在使用开放式NLP附带的模型(en-ner-person.bin).我注意到虽然它识别我们,英国和欧洲名字,却无法识别印度或日本的名字.我的问题是(1)是否已有可用于识别外国名称的模型(2)如果没有,那么我相信我需要生成新模型.在那种情况下,是否有可用的copora？

nlp opennlp

Shi*_*mar

lucky-day

5
推荐指数

1
解决办法

3791
查看次数

获得给定句子的下一个单词(或POS)建议.自动完成一个句子

我必须在基于桌面的java应用程序中实现自动建议功能.要求如下:
用户将给出一个句子作为输入,我必须返回下一个可能Part-Of-Speech的建议.例如:
1.UserInput:迈克希望 Suggestions:[阅读,玩耍,玩乐,学习,编码,等等]
2. UserInput:迈克有 Suggestions:[阅读,Naboo N-1星际战斗机,马,...等]

这是这个问题的重复,但这个是针对Android的.这可以通过使用一些NLP库来完成,如Stanford-NLP或OpenNLP等吗？如果您需要更多细节,请告诉我.

谢谢!

java stanford-nlp gate uima opennlp

the*_*mix

2017 05-23

5
推荐指数

0
解决办法

740
查看次数

UIMA是仅提供包装还是像StandfordCore NLP和GATE？

Standford Core NLP和GATE提供各种NLP操作,如NER,POS标记.有一些NLP操作,如Tokenizer,Snowball Stemmer可用作UIMA组件.那么,UIMA是否可以与StandfordCore NLP/GATE相媲美,还是用于为管道包装这些API？

nlp stanford-nlp gate uima opennlp

Gau*_*rav

lucky-day

5
推荐指数

1
解决办法

944
查看次数

如何使用OpenNLP在R中获取POS标签？

这是R代码:

library(NLP) 
library(openNLP)
tagPOS <-  function(x, ...) {
s <- as.String(x)
word_token_annotator <- Maxent_Word_Token_Annotator()
a2 <- Annotation(1L, "sentence", 1L, nchar(s))
a2 <- annotate(s, word_token_annotator, a2)
a3 <- annotate(s, Maxent_POS_Tag_Annotator(), a2)
a3w <- a3[a3$type == "word"]
POStags <- unlist(lapply(a3w$features, `[[`, "POS"))
POStagged <- paste(sprintf("%s/%s", s[a3w], POStags), collapse = " ")
list(POStagged = POStagged, POStags = POStags)}
str <- "this is a the first sentence."
tagged_str <-  tagPOS(str)

Run Code Online (Sandbox Code Playgroud)

输出是: