如何使用Weka创建一个单词包?

Lon*_*guy 5 nlp weka

我有一个文档语料库,我想将每个文档表示为一个向量.基本上,对于文档中存在的单词和其他单词(存在于语料库中的其他文档中而不是在此特定文档中),向量将具有1,它将具有0.如何为所有人创建此向量Weka中的文件?

使用Weka有快速的方法吗?我还希望Weka删除停用词,以便在创建此向量之前进行一些预处理.

谢谢Abhishek S.

mic*_*ish 7

你想要StringToWordVector过滤器.

它具有二进制出现和停止的选项,例如词干,截断单词列表,丢弃不常用的术语,大小写折叠等.