在Python字典中匹配不完整的字符串

Question

在Python字典中匹配不完整的字符串

inv*_*dex 4 python regex string string-matching

我有这个字典,其中键是字符串,值是整数,如:

{
...
'X ontology entity': 0, 
'X entity': 1, 
'image quality': 10, 
'right lower kidney': 10, 
'magnetic resonance imaging': 10312, 
'MR imaging': 10312, 
 ...
}

Run Code Online (Sandbox Code Playgroud)

我正在迭代这个词典的键,试图用这些键匹配一系列令牌.假设我有以下一系列令牌:

MR imaging shows that the patient suffers from infection in right lower kidney.

Run Code Online (Sandbox Code Playgroud)

我只是用空格分割上面的文字.

我想匹配MR成像,以及右下肾,因为它们是字典中的关键.所以,我写了下面的代码,我可以匹配"MR成像",而不是"右下肾".(注意,键组中不存在右下方)

found = []
for i, t in enumerate(tokens):
    term = [tokens[i]]
    j = deepcopy(i)
    while (' '.join(term) in self.db_terms):
        if j < len(tokens):
            j += 1
            term.append(tokens[j])
    found.append(' '.join(term[:-1]))
return set(found)

Run Code Online (Sandbox Code Playgroud)

我不知道如何通过键搜索"右下方",匹配"右下肾",然后去检查第三个索引.

任何帮助,将不胜感激!谢谢!

Answer 1

cs9*_*s95 5

看来你正在处理Ngrams.请注意,此答案假设您的词典中有许多键,而不是可能的N-gram.在这种情况下,从文本生成n-gram更有效,而不是迭代字典键(与其他答案的情况一样).

从定义keys字典开始.

keys = {
'X ontology entity': 0, 
'X entity': 1, 
'image quality': 10, 
'right lower kidney': 10, 
'magnetic resonance imaging': 10312, 
'MR imaging': 10312, 
}

Run Code Online (Sandbox Code Playgroud)

您需要在一个范围内(您决定)生成所有N-gram,并且对于每个n-gram,确定它是否作为字典中的键存在.

import re

def get_ngrams(tokens, ngram_range):
    return {' '.join(tokens[i:i+r]) 
        for i in range(len(tokens)) for r in range(*ngram_range)}

ngram_range = (1, 4) # Right exclusive.
tokens = re.sub(r'[^a-zA-Z]', ' ', text).split()
found_tokens = set(filter(keys.__contains__, get_ngrams(tokens, ngram_range)))

print(found_tokens)
# {'MR imaging', 'right lower kidney'}

Run Code Online (Sandbox Code Playgroud)

请记住,对于较大的范围和字符串,这将成为一项昂贵的操作.

您可以通过识别在过滤之前不是所有N-gram都需要存储在内存中来优化一点.我们可以使用生成器和循环节省大量时间:

def ngrams_generator(tokens, ngram_range):
    yield from (' '.join(tokens[i:i+r]) 
        for i in range(len(tokens)) for r in range(*ngram_range))

found_ngrams = set()
for ngram in ngrams_generator(tokens, ngram_range):
    if ngram in keys:
        found_ngrams.add(ngram)

print(found_ngrams)
# {'MR imaging', 'right lower kidney'}

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，1 月前
查看次数：	315 次
最近记录：	7 年，1 月前