用于垃圾邮件检测的神经网络

Question

假设您可以访问一个电子邮件帐户,其中包含过去几年收到的电子邮件的历史记录(~10k封电子邮件),分为2组

您将如何处理创建可用于垃圾邮件检测的神经网络解决方案的任务 - 基本上将任何电子邮件分类为垃圾邮件或非垃圾邮件？

我们假设电子邮件提取已经到位,我们只需要关注分类部分.

我希望得到回答的要点是:

此外,任何资源建议或现有实现(最好是在C#中)都非常受欢迎

谢谢

编辑

Answer 1

如果你坚持使用NN ......我会为每封电子邮件计算一些功能

基于角色,基于单词和词汇的功能(我估计这些约为97):

您还可以根据格式添加更多功能:颜色,字体,大小......使用.

大多数这些措施可以在网上,论文中,甚至维基百科上找到(它们都是简单的计算,可能基于其他功能).

因此,使用大约100个功能,您需要100个输入,隐藏层中的一些节点数和一个输出节点.

输入需要根据您当前预先分类的语料库进行标准化.

我将它分成两组,一组作为训练组,另一组作为测试组,从不混合它们.也许是50/50比率的列车/测试组具有相似的垃圾邮件/非垃圾邮件比率.

Answer 2

您是否开始使用神经网络？听起来你使用贝叶斯分类很好,这在Paul Graham的几篇文章中有很好的概述:

您可以访问的分类历史记录将使用非常强大的语料库来提供贝叶斯算法,您最终可能会获得非常有效的结果.