如何在一个句子中模糊匹配单词到一个完整单词(并且只有完整单词)?

zel*_*usp 9 python regex fuzzy-search

常见的拼写错误的英文单词是两个或三个印刷错误(的取代的组合,内小号,插入,还是信缺失d从他们正确的形式).即单词对中的错误absence - absense可以概括为具有1s,0i0d.

可以使用to-replace-re regex python模块进行模糊匹配以查找单词及其拼写错误.

下表总结了从一些句子中对一个感兴趣的词进行模糊分段的尝试:

在此输入图像描述

  • Regex1 wordsentence允许最多2个错误时找到最佳匹配
  • Regex2找到最佳word匹配,sentence允许最多2个错误,同时尝试仅操作(我认为)整个单词
  • Regex3找到最佳word匹配,sentence允许最多2个错误,同时仅操作(我认为)整个单词.我错了.
  • Regex4找到最佳word匹配,sentence允许最多2个错误,而我(我认为)寻找匹配结束为单词边界

我如何编写一个正则表达式,如果可能的话,在这些单词 - 句子对上消除假阳性和假阴性模糊匹配?

一种可能的解决方案是仅将句子中的单词(由空格包围的字符串或行的开头/结尾)与感兴趣的单词(主要单词)进行比较.如果主要单词和句子中的单词之间存在模糊匹配(e <= 2),则从句子中返回该完整单词(并且仅返回该单词).

将以下数据帧复制到剪贴板:

            word                  sentence
0      cub cadet              cub cadet 42
1        plastex              vinyl panels
2            spt  heat and air conditioner
3     closetmaid                closetmaid
4          ryobi           batteries kyobi
5          ryobi       10' table saw ryobi
6  trafficmaster           traffic mast5er
Run Code Online (Sandbox Code Playgroud)

现在用

import pandas as pd, regex
df=pd.read_clipboard(sep='\s\s+')

test=df
test['(?b)(?:WORD){e<=2}']=df.apply(lambda x: regex.findall(r'(?b)(?:'+x['word']+'){e<=2}', x['sentence']),axis=1)
test['(?b)(?:\wWORD\W){e<=2}']=df.apply(lambda x: regex.findall(r'(?b)(?:\w'+x['word']+'\W){e<=2}', x['sentence']),axis=1)
test['(?V1)(?b)(?:\w&&WORD){e<=2}']=df.apply(lambda x: regex.findall(r'(?V1)(?b)(?:\w&&'+x['word']+'){e<=2}', x['sentence']),axis=1)
test['(?V1)(?b)(?:WORD&&\W){e<=2}']=df.apply(lambda x: regex.findall(r'(?V1)(?b)(?:'+x['word']+'&&\W){e<=2}', x['sentence']),axis=1)
Run Code Online (Sandbox Code Playgroud)

将表加载到您的环境中.

zel*_*usp 3

'(?b)\m(?:WORD){e<=2}\M'