使用Java进行文本简化的最佳工具是什么?
以下是文本简化的示例:
John, who was the CEO of a company, played golf.
?
John played golf. John was the CEO of a company.
Run Code Online (Sandbox Code Playgroud) 我的工作是计划使用UIMA集群来运行文档以提取命名实体,而不是.据我了解,UIMA的NLP组件很少包装.我现在已经测试了GATE一段时间了,并且相当舒服.它在正常文本上运行正常,但是当我们通过一些有代表性的测试数据运行它时,精度会下降.我们内部的文本数据有时是全部大写,有时全是小写,或者是同一文档中两者的混合.即使使用ANNIE的全部大写规则,准确性仍然有很多不足之处.我最近听说过Stanford NLP和OpenNLP,但没有时间对它们进行广泛的训练和测试.这两者在准确性方面与ANNIE相比如何?他们是否像GATE一样与UIMA合作?
提前致谢.
我已经为GATE构建了一些插件组件,并结合ANNIE工具,在GATE平台上运行管道.
有谁知道如何从控制台运行管道?我想在Tomcat中构建一个Web应用程序,它将从网页上获取纯文本,将其传递给我已构建的GATE管道并执行某些操作.所以我需要在一个简单的Java文件中运行GATE,怎么做呢?
提前谢谢,抱歉我的语法很差
我可以在我的java程序中使用GATE http://gate.ac.uk/来提取命名实体.如果是的话,你能举一些例子或指导我参考吗?谢谢
我正在学习GATE和JAPE语法.这是我第一次使用GATE和JAPE语法.我正在学习本教程,其中给出了识别运动的语法.我使用了这个.jape文件和示例文本,但GATE无法识别除人员,组织,日期等之外的任何内容.
我想知道如何.jape在GATE中使用自定义语法?如果有人可以请你采取措施,那将是非常好的.
目前我正在做以下步骤:
启动GATE GUI.
加载带有默认值的ANNIE系统.
步骤(2)加载ANNIE POS Tagger,tokenizer,句子分割器等Processing Resources.
右键单击Processing Resources并选择New -> JAPE Transducer.
给.jape文件路径并给出一些名称.
右键单击Language Resources并选择New -> GATE Corpus.给语料库命名.
右键单击新创建的语料库并选择Populate.
选择存在文本文件的目录.我们想在这些文件上运行GATE.
双击节点ANNIE下方Applications,然后单击Run
This Application按钮.
一旦我点击Run This Application按钮,所有处理完成,我打开输入文本文件.
此文件没有任何标记写入.jape文件,它只显示正常标签,如人员,组织等.

我的.jape文件如下所示:
Phase:firstpass
Input: Lookup
Options: control = brill
Rule: SportsCategory
Priority: 20
(
{Lookup.majorType == "Sports"} …Run Code Online (Sandbox Code Playgroud) 我必须在基于桌面的java应用程序中实现自动建议功能.要求如下:
用户将给出一个句子作为输入,我必须返回下一个可能Part-Of-Speech的建议.例如:
1.UserInput:迈克希望 Suggestions:[阅读,玩耍,玩乐,学习,编码,等等]
2. UserInput:迈克有 Suggestions:[阅读,Naboo N-1星际战斗机,马,...等]
这是这个问题的重复,但这个是针对Android的.这可以通过使用一些NLP库来完成,如Stanford-NLP或OpenNLP等吗?如果您需要更多细节,请告诉我.
谢谢!
Standford Core NLP和GATE提供各种NLP操作,如NER,POS标记.有一些NLP操作,如Tokenizer,Snowball Stemmer可用作UIMA组件.那么,UIMA是否可以与StandfordCore NLP/GATE相媲美,还是用于为管道包装这些API?
我想从一组字符串中检索日期和其他时间实体。可以这样做,而无需在JAVA中解析日期字符串,因为大多数解析器只能处理有限范围的输入模式。但是输入是手动输入,因此在这里是不明确的。
输入可以像:
9月12日| 3月中| 2013年9月12日
9月12日| 9月12日| 2013年
2013年9月13日| 9月12日| 12月12日
在Java中查找日期时,我经历了许多答案,但是大多数答案都没有处理如此庞大的输入模式。
我试过使用SimpleDateFormat类并使用一些parse()函数来检查解析函数是否中断,这意味着它不是日期。我试过使用,regex但不确定在这种情况下是否适合。我还使用ClearNLP来注释日期,但是它没有提供可靠的注释集。
获得这些值的最接近方法是使用Chain of responsibility如下所述的a 。是否有一个具有一组日期模式的库。我可以用那个吗?
我正在尝试构建一个本质上必须执行命名实体识别(NER)的NLP应用程序。我遇到了GATE。据我了解,这是构建NLP应用程序的框架。我测试了ANNIE,它是随GATE一起发布的IE系统,但我的域的NER结果未达到预期。实际上,任何NER(例如Stanford CoreNLP或NLTK)都没有给我所需的结果。因此,我决定调整现有系统以获得所需结果。
关于GATE,我喜欢几件事情:
1.组件的模块化:例如在ANNIE中,诸如Tokenizer,Gaztteer,Sentence splitter,POS标记器等组件可以彼此独立使用。
2.它的规则语言称为JAPE,它具有很好的编写规则或模式的方式。
但是我想了解的有关GATE的几件事是:
1. GATE的其他主要优势是什么,特别是对NER?
2. GATE添加新组件的灵活性如何?例如,某天是否要在GATE中使用NLTK的POS标记器?
3.如果我想在GATE中使用自定义机器学习模型?
4.我知道谢菲尔德大学的NLP小组参与了GATE,但是我想知道GATE社区的活跃程度以及对GATE的支持有多活跃?
5. GATE可以用于商业软件吗?
热衷于此的实际使用GATE的人的建议
我是GATE ANNIE的新手.我尝试了GATE GUI界面,并获得了完成任务的经验.我想知道如何在Java中实现命名实体提取?
我做了R&D但无法找到任何有关命名实体提取的教程.
是否有任何代码可用,找出命名实体提取在GATE ANNIE中的Java?