wne*_*ort 9 python java information-retrieval nltk wordnet
我使用了LingPipe,Stanford的NER,RiTa和各种句子相似性库,用于我以前的Java项目,这些项目主要关注大量英文文本的文本(预处理)处理(索引,xml标记,主题检测等)(大约10,000个文档)总计大于1GB的文本).也许我是一个糟糕的Java程序员,但是当我切换到不同的语料库时,我发现自己输入了大量代码并使用了大量的库.总的来说,我觉得可能有更好的工具来完成这项工作.
我想我的问题是,我是否可以从切换到Python和NLTK进行信息检索/语言处理中获益?或者是否有足够的利弊使其非常主观?NLTK是否足够直观,可以快速学习?
我会弄脏手,但接下来的几天我将无法使用个人电脑.
如果您已经了解NLP的基础知识,我认为NLTK应该很容易掌握.它有一堆文档,2本书,我在streamhacker.com上写了很多文章和教程.如果您不想丢失Java包中的任何内容,理论上可以使用Jython(也许是execnet)将它与NLTK结合起来.
您还可以查看Pattern库.
| 归档时间: |
|
| 查看次数: |
10354 次 |
| 最近记录: |