相关疑难解决方法(0)

在管道处理期间可以从 spaCy 文档中删除令牌吗?

我正在使用 spaCy(一个很棒的 Python NLP 库)来处理许多非常大的文档,但是,我的语料库中有许多我想在文档处理管道中消除的常用词。有没有办法从管道组件内的文档中删除令牌?

python nlp spacy

3
推荐指数
1
解决办法
2615
查看次数

Spacy 替换令牌

我试图在不破坏句子中的空间结构的情况下替换一个单词。假设我有这个句子text = "Hi this is my dog."。我希望用Simba. 按照/sf/answers/4004442151/的回答,我做了:

import spacy
nlp = spacy.load("en_core_web_lg")
from spacy.tokens import Doc

doc1 = nlp("Hi this is my dog.")
new_words = [token.text if token.text!="dog" else "Simba" for token in doc1]
Doc(doc1.vocab, words=new_words)
# Hi this is my Simba . 
Run Code Online (Sandbox Code Playgroud)

请注意在句号之前的末尾有一个额外的空间(应该是Hi this is my Simba.)。有没有办法消除这种行为。也很高兴获得一般的 Python 字符串处理答案。

python spacy

2
推荐指数
2
解决办法
2133
查看次数

标签 统计

python ×2

spacy ×2

nlp ×1