Lon*_*guy 5 nlp weka
我有一个文档语料库,我想将每个文档表示为一个向量.基本上,对于文档中存在的单词和其他单词(存在于语料库中的其他文档中而不是在此特定文档中),向量将具有1,它将具有0.如何为所有人创建此向量Weka中的文件?
使用Weka有快速的方法吗?我还希望Weka删除停用词,以便在创建此向量之前进行一些预处理.
谢谢Abhishek S.
mic*_*ish 7
你想要StringToWordVector过滤器.
它具有二进制出现和停止的选项,例如词干,截断单词列表,丢弃不常用的术语,大小写折叠等.
归档时间:
14 年,1 月 前
查看次数:
5150 次
最近记录: