相关疑难解决方法(0)

Tokenizer,停止Word删除,用Java编写

我正在寻找一个类或方法,它需要长达100多个单词和标记的字符串,删除用于IR系统的停用词和词干.

例如:

"那只肥胖的大猫,'我知道'你最有趣的家伙'给袋鼠......"

标记器将删除标点符号并返回ArrayList单词

停用词删除器会删除"the","to"等字样

词干将减少每个词的"根",例如"最有趣"会变得有趣

提前谢谢了.

java stemming tokenize stop-words

20
推荐指数
2
解决办法
5万
查看次数

标签 统计

java ×1

stemming ×1

stop-words ×1

tokenize ×1