相关疑难解决方法(0)

Python中的模糊字符串比较,与使用哪个库相混淆

我想做模糊字符串比较,但与使用哪个库混淆.

选项1:

import Levenshtein
Levenshtein.ratio('hello world', 'hello')

Result: 0.625
Run Code Online (Sandbox Code Playgroud)

选项2:

import difflib
difflib.SequenceMatcher(None, 'hello world', 'hello').ratio()

Result: 0.625
Run Code Online (Sandbox Code Playgroud)

在这个例子中,两者给出了相同的答案.但我更喜欢使用__CODE__.专家的任何建议.谢谢.

__CODE__

我正在进行临床信息规范化(拼写检查),其中我检查每个给定的单词对900,000字的医学词典.我更关注时间复杂度/性能.

在这种情况下,你认为两者都表现相似吗?

python string-matching difflib levenshtein-distance

119
推荐指数
2
解决办法
6万
查看次数

模糊字符串与grep匹配

我试图匹配包含字符串的文件中的行说ACTGGGTAAACTA.如果我做

grep "ACTGGGTAAACTA" file 
Run Code Online (Sandbox Code Playgroud)

它给了我完全匹配的行.有没有办法允许一定数量的不匹配(替换,插入或删除)?例如,我正在寻找序列

  1. 最多3个允许的格式,如"AGTGGGTAACCAA"等.

  2. 插入/删除(部分匹配,如"ACTGGGAAAATAAACTA"或"ACTAAACTA")

regex shell pattern-matching

6
推荐指数
2
解决办法
4692
查看次数