Chr*_*nte 6 javascript greasemonkey artificial-intelligence spam-prevention spam
我最近受到了启发,用JavaScript(Greasemonkey风格)编写垃圾邮件过滤器,用于我使用的几个易于垃圾邮件的网站(特别是在评论中).当我考虑如何解决这个问题时,我意识到我有几个选择,每个选项都有优点/缺点.我对这个问题的目标是扩展我创建的列表,并希望确定使用JavaScript进行客户端垃圾邮件过滤的最佳方式.
至于什么使垃圾邮件过滤器"最好",我会说这些是标准:
另请注意,我正在尝试使用Greasemonkey Userscripts过滤已经存在于非我的网站上的内容.换句话说,我无法阻止垃圾邮件; 我只能过滤它.
到目前为止,我的尝试是编制各种方法的列表及其缺点和好处:
基于规则的过滤器:
它的作用:通过将点值分配给不同的标准(即全部大写,所有非字母数字等)来"消息"消息.根据分数,丢弃或保留消息.
优点:
不足之处:
贝叶斯过滤:
它的作用:分析词频(或三字母频率)并将其与训练过的数据进行比较.
好处:
不足之处:
贝叶斯过滤 - 服务器端:
作用:通过将每条消息提交给远程服务器进行分析,应用贝叶斯过滤服务器端.
优点:
不足之处:
黑名单:
作用:将一组条件应用于消息或其某些属性.如果一个或多个(或特定数量)标准匹配,则拒绝该消息.很像基于规则的过滤,所以请参阅其描述以获取详细信息.
CAPTCHAs等:
对于这种类型的应用程序不可行.我正在尝试将这些方法应用于已存在的网站.Greasemonkey将用于做到这一点; 在某人安装我的脚本之前,我无法在他们没有的地方开始要求CAPTCHA.
任何人都可以帮我填空吗?谢谢,
没有“最佳”方式,尤其是对于所有用户或所有情况。
把事情简单化:
至于实际的服务器/过滤标准......
最重要的是不要假设您可以猜测用户想要过滤的内容! 这会因人而异,甚至因心情而异。
将服务器设置为使用坏词、坏链接目标(例如 .ru 和 .cn 域)和公共垃圾邮件过滤服务的组合。
最重要的是为用户提供某种方式来为他们选择和理想地调整所应用的内容。