Ste*_*wig 8 language-agnostic algorithm edit-distance levenshtein-distance
我把"chunk transposition"放在引号中,因为我不知道技术术语应该是什么或者是什么.只知道该过程是否有技术术语将非常有帮助.
通过考虑"块转置",我的意思是
Turing, Alan.
Run Code Online (Sandbox Code Playgroud)
应该匹配
Alan Turing
Run Code Online (Sandbox Code Playgroud)
比它更匹配
Turing Machine
Run Code Online (Sandbox Code Playgroud)
即距离计算应检测文本的子串何时在文本中移动.常见的Levenshtein距离公式不是这种情况.
字符串最多只有几百个字符 - 它们是作者姓名或作者姓名列表,可以是各种格式.我没有做DNA测序(虽然我怀疑那些会对这个主题有所了解的人).
小智 2
查看杰卡德距离度量 (JDM)。这是一个古老但优秀的东西,非常擅长处理令牌级别的差异,例如姓氏在前,名字在后。对于两个字符串比较数,JDM 计算只是两个字符串共有的唯一字符数除以它们之间的唯一字符总数(换句话说,并集上的交集)。例如,给定两个参数“JEFFKTYZZER”和“TYZZERJEFF”,分子为 7,分母为 8,得出的值为 0.875。我选择的字符作为标记并不是唯一可用的,顺便说一句,n-grams 也经常被使用。