如何告诉difflib.get_close_matches()忽略大小写?我有一个字典,其中包含一个包含大小写的定义格式.但是,测试字符串可能具有完全大小写或没有大小写,这些应该是等效的.但是,结果需要适当地大写,因此我不能使用修改后的字典.
import difflib
names = ['Acacia koa A.Gray var. latifolia (Benth.) H.St.John',
'Acacia koa A.Gray var. waianaeensis H.St.John',
'Acacia koaia Hillebr.',
'Acacia kochii W.Fitzg. ex Ewart & Jean White',
'Acacia kochii W.Fitzg.']
s = 'Acacia kochi W.Fitzg.'
# base case: proper capitalisation
print(difflib.get_close_matches(s,names,1,0.9))
# this should be equivalent from the perspective of my program
print(difflib.get_close_matches(s.upper(),names,1,0.9))
# this won't work because of the dictionary formatting
print(difflib.get_close_matches(s.upper().capitalize(),names,1,0.9))
Run Code Online (Sandbox Code Playgroud)
输出:
['Acacia kochii W.Fitzg.']
[]
[]
Run Code Online (Sandbox Code Playgroud)
工作代码:
根据Hugh Bothwell的回答,我修改了如下代码以获得一个有效的解决方案(当返回多个结果时,它也应该有效):
import difflib
names = ['Acacia koa A.Gray var. latifolia (Benth.) H.St.John',
'Acacia koa A.Gray var. waianaeensis H.St.John',
'Acacia koaia Hillebr.',
'Acacia kochii W.Fitzg. ex Ewart & Jean White',
'Acacia kochii W.Fitzg.']
test = {n.lower():n for n in names}
s1 = 'Acacia kochi W.Fitzg.' # base case
s2 = 'ACACIA KOCHI W.FITZG.' # test case
results = [test[r] for r in difflib.get_close_matches(s1.lower(),test,1,0.9)]
results += [test[r] for r in difflib.get_close_matches(s2.lower(),test,1,0.9)]
print results
Run Code Online (Sandbox Code Playgroud)
输出:
['Acacia kochii W.Fitzg.', 'Acacia kochii W.Fitzg.']
Run Code Online (Sandbox Code Playgroud)
我没有看到任何快速的方法使difflib做不区分大小写的比较.
似乎是快速而肮脏的解决方案
创建一个将字符串转换为某种规范形式的函数(例如:大写,单行,无标点符号)
使用该函数制作{canonical string:original string}的dict和[canonical string]的列表
对规范字符串列表运行.get_close_matches,然后通过dict插入结果以获取原始字符串
经过大量搜索后,我很遗憾地发现对于这个明显的用例没有简单的预先固定的答案。
唯一的选择似乎是“FuzzyWuzzy”库。然而,它像 Python 一样依赖于 Levenshtein Distance difflib,而且它的 API 不是生产质量的。它的更晦涩的方法确实不区分大小写,但它没有提供直接或简单的替代get_close_matches。
所以这是我能想到的最简单的实现:
import difflib
def get_close_matches_icase(word, possibilities, *args, **kwargs):
""" Case-insensitive version of difflib.get_close_matches """
lword = word.lower()
lpos = {p.lower(): p for p in possibilities}
lmatches = difflib.get_close_matches(lword, lpos.keys(), *args, **kwargs)
return [lpos[m] for m in lmatches]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
3433 次 |
| 最近记录: |