kri*_*tof 18 classification machine-learning spam-prevention neural-network
假设您可以访问一个电子邮件帐户,其中包含过去几年收到的电子邮件的历史记录(~10k封电子邮件),分为2组
您将如何处理创建可用于垃圾邮件检测的神经网络解决方案的任务 - 基本上将任何电子邮件分类为垃圾邮件或非垃圾邮件?
我们假设电子邮件提取已经到位,我们只需要关注分类部分.
我希望得到回答的要点是:
此外,任何资源建议或现有实现(最好是在C#中)都非常受欢迎
谢谢
编辑
Osa*_*eed 24
如果你坚持使用NN ......我会为每封电子邮件计算一些功能
基于角色,基于单词和词汇的功能(我估计这些约为97):
您还可以根据格式添加更多功能:颜色,字体,大小......使用.
大多数这些措施可以在网上,论文中,甚至维基百科上找到(它们都是简单的计算,可能基于其他功能).
因此,使用大约100个功能,您需要100个输入,隐藏层中的一些节点数和一个输出节点.
输入需要根据您当前预先分类的语料库进行标准化.
我将它分成两组,一组作为训练组,另一组作为测试组,从不混合它们.也许是50/50比率的列车/测试组具有相似的垃圾邮件/非垃圾邮件比率.
| 归档时间: |
|
| 查看次数: |
11068 次 |
| 最近记录: |