我正在使用 SpaCy 来预处理一些数据。但是,我被困在如何修改spacy.tokens.doc.Doc类的内容上。
例如,这里:
npc = spacy.load("pt")
def pre_process_text(doc) -> str:
new_content = ""
current_tkn = doc[0]
for idx, next_tkn in enumerate(doc[1:], start=0):
# Pre-process data
# new_content -> currently, it is the way I'm generating
# the new content, concatenating the modified tokens
return new_content
nlp.add_pipe(pre_process_text, last=True)
Run Code Online (Sandbox Code Playgroud)
在上面代码中的注释部分,我想从docparam 中删除一些标记,或者我想更改其标记文本内容。换句话说,我可以spacy.tokens.doc.Doc通过(1)完全删除标记或(2)更改标记内容来修改 的内容。
有没有一种方法来创建另一个spacy.tokens.doc.Doc与修改标记但保持Vocab距离npc = spacy.load("pt")。
目前,我通过返回一个字符串来生成新内容,但是有没有办法返回修改后的 Doc?