在熊猫中执行模糊字符串匹配的更快方法

Question

在熊猫中执行模糊字符串匹配的更快方法

Ama*_*ngh 1 python fuzzy-comparison pandas fuzzywuzzy

有什么方法可以在熊猫中使用fuzzywuzzy来加速模糊字符串匹配。

我有一个数据框，extra_names它的名称我想与另一个数据框运行模糊匹配names_df。

>> extra_names.head()

     not_matching
0 Vij Sales
1 Crom Electronics 
2 REL Digital
3 Bajaj Elec
4 Reliance Digi

>> len(extra_names)
6500

>> names_df.head()

         names   types
0 Vijay Sales        1
1 Croma Electronics  1
2 Reliance Digital   2
3 Bajaj Electronics  2
4 Pai Electricals    2

>> len(names_df)
250

Run Code Online (Sandbox Code Playgroud)

截至目前，我正在使用以下代码运行逻辑，但它需要永远完成。

choices = names_df['names'].unique().tolist()

def fuzzy_match(row):
    best_match = process.extractOne(row, choices)
    return best_match[0], best_match[1] if best_match else '',''

%%timeit
extra_names['best_match'], extra_names['match%'] = extra_names['not_matching'].apply(fuzzy_match)

Run Code Online (Sandbox Code Playgroud)

当我发布这个问题时，查询仍在运行。有没有办法加快这个模糊字符串匹配过程？

Answer 1

cs9*_*s95 7

让我们试试difflib：

import difflib
from functools import partial

f = partial(
    difflib.get_close_matches, possibilities=names_df['names'].tolist(), n=1)

matches = extra_names['not_matching'].map(f).str[0].fillna('')
scores = [
    difflib.SequenceMatcher(None, x, y).ratio() 
    for x, y in zip(matches, extra_names['not_matching'])
]

extra_names.assign(best=matches, score=scores)

       not_matching               best     score
0         Vij Sales        Vijay Sales  0.900000
1  Crom Electronics  Croma Electronics  0.969697
2       REL Digital   Reliance Digital  0.666667
3        Bajaj Elec  Bajaj Electronics  0.740741
4     Reliance Digi   Reliance Digital  0.896552

Run Code Online (Sandbox Code Playgroud)

@pyd 使用partial是为了避免lambda函数。 (2认同)

归档时间：	6 年，4 月前
查看次数：	554 次
最近记录：	6 年，3 月前