小编str*_*1ct的帖子

我必须使用一些分类器(例如Naive Bayes,SVM和另一个分类器)进行垃圾邮件检测应用程序并比较它们的效率但不幸的是我不知道我应该做什么.

这是正确的:首先我应该有语料库垃圾邮件,如trec2005,spamassasin或enron-spam.然后,我进行文本预处理,如词干,停止单词删除,标记化等.

之后,我可以使用tf-idf在垃圾邮件中测量我的功能/条款的权重.接下来,我以非常低和非常高的频率移除这些功能.然后我可以对我的电子邮件进行分类.对？

之后,我可以通过真阳性,假阳性等来衡量我的正确分类.

什么东西需要10倍交叉验证？我该怎么用？

你能告诉我这些电子邮件分类的步骤是否正常？如果没有,请解释垃圾邮件分类的正确步骤.

1
推荐指数

1
解决办法

3511
查看次数

小编str_1ct的帖子