小编Pau*_*ann的帖子

如何使用 SpaCy 中的管道组件修改 spacy.tokens.doc.Doc 令牌

我正在使用 SpaCy 来预处理一些数据。但是,我被困在如何修改spacy.tokens.doc.Doc类的内容上。

例如,这里:

npc = spacy.load("pt")
def pre_process_text(doc) -> str:
    new_content = ""
    current_tkn = doc[0]
    for idx, next_tkn in enumerate(doc[1:], start=0):
        # Pre-process data
        # new_content -> currently, it is the way I'm generating
        # the new content, concatenating the modified tokens

    return new_content
nlp.add_pipe(pre_process_text, last=True)
Run Code Online (Sandbox Code Playgroud)

在上面代码中的注释部分,我想从docparam 中删除一些标记,或者我想更改其标记文本内容。换句话说,我可以spacy.tokens.doc.Doc通过(1)完全删除标记或(2)更改标记内容来修改 的内容。

有没有一种方法来创建另一个spacy.tokens.doc.Doc与修改标记但保持Vocab距离npc = spacy.load("pt")

目前,我通过返回一个字符串来生成新内容,但是有没有办法返回修改后的 Doc?

python-3.x spacy

3
推荐指数
1
解决办法
2890
查看次数

标签 统计

python-3.x ×1

spacy ×1