Dre*_*wes 7 python algorithm similarity
我正在寻找一种算法,它可以从较长的字符串生成一个短(fx 16个字符(不重要)哈希码/摘要).
主要要求是几乎相同的字符串应该导致相同的摘要.
Fx 2几乎相同的邮件:
嗨马丁.这里有一些...垃圾邮件给你.关心XYZ.=> AAAA AAAA AAAA AAAA
嗨博.这里有一些...垃圾邮件给你.关心EFG.=> AAAA AAAA AAAA AAAA
返回相同的消化(或几乎相同),作为不同的邮件:
你好Finn.这是一封测试邮件.=> CCCC CCCC CCCC CCCC
将返回不同的摘要.
此算法将成为垃圾邮件过滤器的一部分.过滤器将记住邮件中的摘要,它肯定是垃圾邮件.如果相同的摘要显示在有疑问的邮件中,相同的摘要将导致过滤器增加spamscore.
我知道Levenshtein,但它要求我先了解弦乐.在这种情况下,我没有这方面的信息.我可以获得这些信息,但这需要过滤器来存储所有垃圾邮件并检查每个邮件,这将是一个非常缓慢的过程.
也许一些松散的压缩算法加上两者之间的Levenshtein距离的计算可以起作用.
任何指针赞赏.