什么是一个很好的开源软件包,用于在大型Rails站点上构建灵活的垃圾邮件检测?

gtd*_*gtd 6 ruby linux soa spam bayesian

我的网站越来越大,它开始通过各种渠道吸引大量垃圾邮件.该网站有许多不同类型的UGC(个人资料,论坛,博客评论,状态更新,私人消息等).我正在进行各种缓解措施,我希望以闪电般的方式进行部署,以使垃圾邮件发送者相信我们不是一个有价值的目标.我对我正在做的功能有很高的信心,但是一个缺失的部分就是一次性杀死所有旧的垃圾邮件.

这就是我所拥有的:

  • 大的好/坏语料库(5位数不好,6或7位数字好).很多垃圾邮件都有非常可靠的指纹,事实上我已经忽略它6个月有助于:)
  • 部署到AWS的大型模块化Rails站点.它不是一个巨大的流量站点,但我们在SOA的开始运行8个实例.
  • Ruby,Redis,Resque,MySQL,Varnish,Nginx,Unicorn,Chef,都在Gentoo上

我的要求:

  1. 我希望它在数据量方面表现得相当好(因此我对纯ruby解决方案持谨慎态度).
  2. 我应该能够针对不同类型的内容训练多种分类(419-scam vs僵尸网络链接垃圾邮件)
  3. 我希望能够根据我们自己的侦探工作(模式匹配,IP重用等)添加手动因素
  4. 最终我想构建一个与Ruby一起使用的漂亮接口.如果这需要我的手弄脏C或其他什么,我可以处理它,但如果可以的话我会避免它.

我意识到这是一个漫长而模糊的问题,但我正在寻找的主要是一个好的包列表,其次是来自某个人的随机想法,这些人建立了一个类似的方法来处理它.

Mor*_*ori 5

我们寻找一个可接受的开源解决方案,但没有找到.

如果您得出相同的结论并决定考虑专有的反垃圾邮件,请查看付费的Akismet协作垃圾邮件过滤服务.我们在十几个中型网站上获得了不错的表现.它集成了机架,通过和铁路rackismet.