如何避免使用 Matcher 在 SpaCy 中重复提取重叠模式？

Question

如何避免使用 Matcher 在 SpaCy 中重复提取重叠模式？

我需要通过 python Spacy Matcher 从 2 个列表中提取项目组合。问题如下：让我们有2个列表：

colors=['red','bright red','black','brown','dark brown']
animals=['fox','bear','hare','squirrel','wolf']

Run Code Online (Sandbox Code Playgroud)

我通过以下代码匹配序列：

first_color=[]
last_color=[]
only_first_color=[]
for color in colors:
    if ' ' in color:
        first_color.append(color.split(' ')[0])
        last_color.append(color.split(' ')[1])
    else:
        only_first_color.append(color)
matcher = Matcher(nlp.vocab)

pattern1 = [{"TEXT": {"IN": only_first_color}},{"TEXT":{"IN": animals}}]
pattern2 = [{"TEXT": {"IN": first_color}},{"TEXT": {"IN": last_color}},{"TEXT":{"IN": animals}}]

matcher.add("ANIMALS", None, pattern1,pattern2)

doc = nlp('bright red fox met black wolf')

matches = matcher(doc)

for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(start, end, span.text)

Run Code Online (Sandbox Code Playgroud)

它给出了输出：

0 3 bright red fox
1 3 red fox
4 6 black wolf

Run Code Online (Sandbox Code Playgroud)

如何只提取“亮红狐”和“黑狼”？我应该更改模式规则还是对匹配进行后处理？

任何想法表示赞赏！

Answer 1

Wik*_*żew 15

您可以使用spacy.util.filter_spans：

过滤一系列Span对象并删除重复项或重叠项。用于创建命名实体（其中一个标记只能是一个实体的一部分）或与Retokenizer.merge. 当跨度重叠时，（第一个）最长跨度优先于较短跨度。

蟒蛇代码：

matches = matcher(doc)
spans = [doc[start:end] for _, start, end in matches]
for span in spacy.util.filter_spans(spans):
    print(span.start, span.end, span.text)

Run Code Online (Sandbox Code Playgroud)

输出：

0 3 bright red fox
4 6 black wolf

Run Code Online (Sandbox Code Playgroud)

多谢！对于这个问题来说，这确实是一个优雅的解决方案。我是 spacy 的新手，我不知道 spacy.util.filter_spans 的可能性。这对我来说非常有效。 (2认同)

Answer 2

小智 5

从 spaCy 3.0 开始，Matcher 类现在具有贪婪过滤器。

matcher.add("ANIMALS", [pattern1,pattern2], greedy="LONGEST")

Run Code Online (Sandbox Code Playgroud)

当添加到匹配器对象时，返回

0 3 bright red fox
4 6 black wolf

Run Code Online (Sandbox Code Playgroud)

请参阅： https: //spacy.io/api/matcher#add

归档时间：	5 年，5 月前
查看次数：	1274 次
最近记录：	5 年，5 月前