什么是UIMA CAS(共同注释结构)的NLTK等价物?

Ren*_*aud 3 nlp nltk uima

在UIMA中,CAS(通用注释结构)在构建NLP应用程序中起主要作用.它允许将一个组件添加的元数据传递到下一个组件中.例如,来自句子标记器的句子边界可以添加到CAS并由后续的单词标记器使用.

NLTK中的等效数据结构是什么?

zep*_*lee 6

简而言之,NLTK中没有与CAS(通用分析系统)相同的概念.后者使用比UIMA更简单的表示文本的方法.在NLTK中,文本只是单词列表,而在UIMA中,您有非常复杂(和重量级)的数据结构,这些数据结构被定义为CAS的一部分,用于描述输入数据及其通过UIMA系统的流程.

话虽如此,我认为他们中的两个无论如何都要服务于不同的目的.如果我要为NLTK命名Java等价物,我会选择OpenNLP工具包而不是UIMA.前者提供了许多基于机器学习的NLP算法(NLTK等),而后者是基于组件的框架,不仅适用于NLP,还适用于非结构化数据.也就是说,它定义了构建使用非结构化数据的应用程序的通用模型.