我正在寻找一个类或方法,它需要长达100多个单词和标记的字符串,删除用于IR系统的停用词和词干.
例如:
"那只肥胖的大猫,'我知道'你最有趣的家伙'给袋鼠......"
标记器将删除标点符号并返回ArrayList单词
ArrayList
停用词删除器会删除"the","to"等字样
词干将减少每个词的"根",例如"最有趣"会变得有趣
提前谢谢了.
java stemming tokenize stop-words
java ×1
stemming ×1
stop-words ×1
tokenize ×1