inv*_*dex 4 python regex string string-matching
我有这个字典,其中键是字符串,值是整数,如:
{
...
'X ontology entity': 0,
'X entity': 1,
'image quality': 10,
'right lower kidney': 10,
'magnetic resonance imaging': 10312,
'MR imaging': 10312,
...
}
Run Code Online (Sandbox Code Playgroud)
我正在迭代这个词典的键,试图用这些键匹配一系列令牌.假设我有以下一系列令牌:
MR imaging shows that the patient suffers from infection in right lower kidney.
Run Code Online (Sandbox Code Playgroud)
我只是用空格分割上面的文字.
我想匹配MR成像,以及右下肾,因为它们是字典中的关键.所以,我写了下面的代码,我可以匹配"MR成像",而不是"右下肾".(注意,键组中不存在右下方)
found = []
for i, t in enumerate(tokens):
term = [tokens[i]]
j = deepcopy(i)
while (' '.join(term) in self.db_terms):
if j < len(tokens):
j += 1
term.append(tokens[j])
found.append(' '.join(term[:-1]))
return set(found)
Run Code Online (Sandbox Code Playgroud)
我不知道如何通过键搜索"右下方",匹配"右下肾",然后去检查第三个索引.
任何帮助,将不胜感激!谢谢!
看来你正在处理Ngrams.请注意,此答案假设您的词典中有许多键,而不是可能的N-gram.在这种情况下,从文本生成n-gram更有效,而不是迭代字典键(与其他答案的情况一样).
从定义keys字典开始.
keys = {
'X ontology entity': 0,
'X entity': 1,
'image quality': 10,
'right lower kidney': 10,
'magnetic resonance imaging': 10312,
'MR imaging': 10312,
}
Run Code Online (Sandbox Code Playgroud)
您需要在一个范围内(您决定)生成所有N-gram,并且对于每个n-gram,确定它是否作为字典中的键存在.
import re
def get_ngrams(tokens, ngram_range):
return {' '.join(tokens[i:i+r])
for i in range(len(tokens)) for r in range(*ngram_range)}
ngram_range = (1, 4) # Right exclusive.
tokens = re.sub(r'[^a-zA-Z]', ' ', text).split()
found_tokens = set(filter(keys.__contains__, get_ngrams(tokens, ngram_range)))
print(found_tokens)
# {'MR imaging', 'right lower kidney'}
Run Code Online (Sandbox Code Playgroud)
请记住,对于较大的范围和字符串,这将成为一项昂贵的操作.
您可以通过识别在过滤之前不是所有N-gram都需要存储在内存中来优化一点.我们可以使用生成器和循环节省大量时间:
def ngrams_generator(tokens, ngram_range):
yield from (' '.join(tokens[i:i+r])
for i in range(len(tokens)) for r in range(*ngram_range))
found_ngrams = set()
for ngram in ngrams_generator(tokens, ngram_range):
if ngram in keys:
found_ngrams.add(ngram)
print(found_ngrams)
# {'MR imaging', 'right lower kidney'}
Run Code Online (Sandbox Code Playgroud)