是否可以更改 Spacy 分词器的分词规则？

Question

是否可以更改 Spacy 分词器的分词规则？

Joh*_*hsm 8 python regex token tokenize spacy

默认情况下，（德语）spacy 分词器不会按斜线、下划线或星号分割，这正是我所需要的（因此“der/die”会生成单个标记）。

然而，它确实在括号上拆分，因此“dies(und)das”被拆分为 5 个标记。是否有一种（简单）方法告诉默认标记器也不在括号上拆分，括号两边都由字母括起来，没有空格？

为分词器定义的括号上的分割到底是如何定义的？

Answer 1

aab*_*aab 6

括号上的分割在此行中定义，它在两个字母之间的括号上分割：

https://github.com/explosion/spaCy/blob/23ec07debdd568f09c7c83b10564850f9fa67ad4/spacy/lang/de/punctuation.py#L18

没有简单的方法可以删除中缀模式，但您可以定义一个自定义分词器来执行您想要的操作。一种方法是复制中缀定义spacy/lang/de/punctuation.py并修改它：

import re
import spacy
from spacy.tokenizer import Tokenizer
from spacy.lang.char_classes import ALPHA, ALPHA_LOWER, ALPHA_UPPER, CONCAT_QUOTES, LIST_ELLIPSES, LIST_ICONS
from spacy.lang.de.punctuation import _quotes
from spacy.util import compile_prefix_regex, compile_infix_regex, compile_suffix_regex

def custom_tokenizer(nlp):
    infixes = (
        LIST_ELLIPSES
        + LIST_ICONS
        + [
            r"(?<=[{al}])\.(?=[{au}])".format(al=ALPHA_LOWER, au=ALPHA_UPPER),
            r"(?<=[{a}])[,!?](?=[{a}])".format(a=ALPHA),
            r'(?<=[{a}])[:<>=](?=[{a}])'.format(a=ALPHA),
            r"(?<=[{a}]),(?=[{a}])".format(a=ALPHA),
            r"(?<=[{a}])([{q}\]\[])(?=[{a}])".format(a=ALPHA, q=_quotes),
            r"(?<=[{a}])--(?=[{a}])".format(a=ALPHA),
            r"(?<=[0-9])-(?=[0-9])",
        ]
    )

    infix_re = compile_infix_regex(infixes)

    return Tokenizer(nlp.vocab, prefix_search=nlp.tokenizer.prefix_search,
                                suffix_search=nlp.tokenizer.suffix_search,
                                infix_finditer=infix_re.finditer,
                                token_match=nlp.tokenizer.token_match,
                                rules=nlp.Defaults.tokenizer_exceptions)


nlp = spacy.load('de')
nlp.tokenizer = custom_tokenizer(nlp)

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，6 月前
查看次数：	2695 次
最近记录：	5 年，8 月前