UIMA是仅提供包装还是像StandfordCore NLP和GATE?

Gau*_*rav 5 nlp stanford-nlp gate uima opennlp

Standford Core NLP和GATE提供各种NLP操作,如NER,POS标记.有一些NLP操作,如Tokenizer,Snowball Stemmer可用作UIMA组件.那么,UIMA是否可以与StandfordCore NLP/GATE相媲美,还是用于为管道包装这些API?

rec*_*rec 7

核心UIMA框架不提供特定的NLP工具.它提供了从符合UIMA的组件构建和运行分析工作流的方法.由于要分析的数据在实际应用中可能会变得非常大,因此UIMA专注于可扩展性,提供分布式运行时环境,如UIMA-ASUIMA-DUCC.然而,UIMA不仅在大规模上有用,而且还用于将分析嵌入应用程序或用于构建语言处理实验的科学环境中.

有几个UIMA组件集合提供NLP工具,通常包含第三方解决方案,如OpenNLP,Stanford CoreNLP等:

  • ClearTK - 用于开发统计NLP组件的框架,还包括一些第三方工具的包装器
  • cTAKES - 从电子病历临床自由文本中提取信息
  • DKPro Core - 用于NLP的UIMA组件集合包含许多用于UIMA的第三方工具
  • UIMA Addons - 由UIMA团队自己提供的一小组组件
  • U-Compare - 集成文本挖掘/自然语言处理系统

这些是撰写本文时的一些主要收藏品.如果您搜索它们,您可能会找到其他UIMA组件来源.

核心UIMA框架可与GATE嵌入式相媲美,减去GATE提供的任何开箱即用的处理资源.可以说UIMA Ruta工作台与GATE Developer工作台有很大关系,或者更具体地说与JAPE有关.

UIMA与Stanford CoreNLP的比较并不好,因为UIMA并不专注于提供特定的NLP组件,而CoreNLP也是如此.

像CoreNLP这样的NLP工具往往被包装为UIMA组件,以便在UIMA管道中使用.

像GATE这样的框架通常不会被包装为UIMA组件,但是作为GATE插件提供的特定NLP工具可能会被包装.

披露:我在Apache UIMA项目和DKPro Core项目上工作.