简而言之,NLTK中没有与CAS(通用分析系统)相同的概念.后者使用比UIMA更简单的表示文本的方法.在NLTK中,文本只是单词列表,而在UIMA中,您有非常复杂(和重量级)的数据结构,这些数据结构被定义为CAS的一部分,用于描述输入数据及其通过UIMA系统的流程.
话虽如此,我认为他们中的两个无论如何都要服务于不同的目的.如果我要为NLTK命名Java等价物,我会选择OpenNLP工具包而不是UIMA.前者提供了许多基于机器学习的NLP算法(NLTK等),而后者是基于组件的框架,不仅适用于NLP,还适用于非结构化数据.也就是说,它定义了构建使用非结构化数据的应用程序的通用模型.
| 归档时间: |
|
| 查看次数: |
568 次 |
| 最近记录: |