如何在weka中表示分类文本？

Question

能告诉我如何在weka中表示文本分类的属性或类.通过使用什么属性我可以做分类？单词频率还是单词？ARFF格式可能的结构是什么？你能给我几行结构的例子吗？

非常感谢你提前.

Answer 1

最简单的替代方法之一是从ARFF文件开始,解决两类问题:

@relation corpus 

@attribute text string
@attribute class {pos,neg}

@data
'long text with words ... ',pos

文本表示为String类型,类是带有两个值的名义.

然后你可以应用两个过滤器:

StringToWordVector,用于将文本转换为单词向量表示.过滤器使用每个单词的属性.您可以调整参数以选择二进制/频率表示,词干或停用词.最佳表示取决于问题.如果文本不长,通常二进制表示就足够了.
重新排序以将类属性移动到最后位置,Weka假设它在那里.

您可以在此Weka wiki页面中找到更多信息和其他方法来转换您的数据:http://weka.wikispaces.com/Text+categorization+with+WEKA