我想做模糊字符串比较,但与使用哪个库混淆.
选项1:
import Levenshtein
Levenshtein.ratio('hello world', 'hello')
Result: 0.625
Run Code Online (Sandbox Code Playgroud)
选项2:
import difflib
difflib.SequenceMatcher(None, 'hello world', 'hello').ratio()
Result: 0.625
Run Code Online (Sandbox Code Playgroud)
在这个例子中,两者给出了相同的答案.但我更喜欢使用__CODE__.专家的任何建议.谢谢.
__CODE__
我正在进行临床信息规范化(拼写检查),其中我检查每个给定的单词对900,000字的医学词典.我更关注时间复杂度/性能.
在这种情况下,你认为两者都表现相似吗?
我试图匹配包含字符串的文件中的行说ACTGGGTAAACTA.如果我做
grep "ACTGGGTAAACTA" file
Run Code Online (Sandbox Code Playgroud)
它给了我完全匹配的行.有没有办法允许一定数量的不匹配(替换,插入或删除)?例如,我正在寻找序列
最多3个允许的格式,如"AGTGGGTAACCAA"等.
插入/删除(部分匹配,如"ACTGGGAAAATAAACTA"或"ACTAAACTA")