ark*_*ate 10
研究有监督的学习技巧是很好的.已有多项研究将Multinomial Naive Bayes分类器用于垃圾邮件过滤,取得了很大成功.如果它适用于垃圾邮件过滤,那么它应该与SMS过滤一起使用.你需要的是一个庞大的示例垃圾短信文本数据集,并用它训练分类器.
此外,查看支持向量机可能会有所帮助,其中; 虽然在垃圾邮件过滤中使用较少; 是一种更强大的技术.
此外,仅仅在原始文本上训练算法可能不是最好的前进方式.Mehran Sahami从1998年进行的一项研究发现,当他们考虑其他启发式时,他们取得了优异的性能(例如,发送到邮件列表的电子邮件是从域名发送的电子邮件,以".edu"结尾) ,".com",".org"?电子邮件是否包含多个标点符号("!!!")?等等.
但是从Multinomial朴素贝叶斯分类器开始.它实现起来非常简单,而且使用起来非常简单,而且从个人经验来看:它的培训时间也很短.