在JAVA中使用哪个NLP工具包?

de.*_*.ru 7 java nlp text-mining

我正在开展一个项目,该项目由一个连接到NCBI(国家生物技术信息中心)的网站组成,并在那里搜索文章.事情是我必须对所有结果进行一些文本挖掘.我正在使用JAVA语言进行文本化,使用IAXFACES进行AJAX用于开发网站.我有什么:从搜索返回的文章列表.每篇文章都有一个ID和一个摘要.我们的想法是从每个抽象文本中获取关键字.然后比较所有摘要中的所有关键字,找出最重复的关键字.然后在网站上显示搜索的相关字词.有任何想法吗 ?我在网上搜索了很多,我知道有名称实体识别,部分语音标记,有关于基因和蛋白质的NER的GENIA词库,我已经尝试过阻止...停止单词列表等...我只需要知道最好的aproahc来解决这个问题.非常感谢.

Adi*_*rji 5

我建议你使用POS标记和字符串标记的组合来提取每个摘要中的所有名词..然后使用某种字典/哈希来计算每个名词的频率,然后输出N个最多产的名词..将其与其他一些智能过滤机制相结合,应该可以很好地为您
提供POS标签摘要中的重要关键字,请查看http://nlp.stanford.edu/software/index.shtml上的POS标记器.

但是,如果你期望在你的语料库中有很多多字词而不是只提取名词,那么n = 2到4 就可以获得最多的n-gram