小编ven*_*nev的帖子

Spacy 中是否有二元或三元功能?

下面的代码将句子分成单独的标记,输出如下

 "cloud"  "computing"  "is" "benefiting"  " major"  "manufacturing"  "companies"


import en_core_web_sm
nlp = en_core_web_sm.load()

doc = nlp("Cloud computing is benefiting major manufacturing companies")
for token in doc:
    print(token.text)
Run Code Online (Sandbox Code Playgroud)

理想情况下,我想要的是,将“云计算”放在一起阅读,因为它在技术上是一个词。

基本上我正在寻找一个双克。Spacy 中是否有允许 Bi gram 或 Trigram 的任何功能?

nlp tokenize n-gram python-3.x spacy

9
推荐指数
3
解决办法
1万
查看次数

如何在python中将由连字符分隔的复合词拆分为两个单独的词

我有以下清单

list1= ['Dodd-Frank', 'insurance', 'regulation']
Run Code Online (Sandbox Code Playgroud)

我使用以下命令删除连字符

new1 =[j.replace('-', ' ') for j in list1]
Run Code Online (Sandbox Code Playgroud)

我得到的结果

new1= ['Dodd Frank', 'insurance', 'regulation']
Run Code Online (Sandbox Code Playgroud)

理想的结果是

new1= ['Dodd', 'Frank', 'insurance', 'regulation']

Run Code Online (Sandbox Code Playgroud)

如何以最有效的方式完成此任务

python string list python-3.x

5
推荐指数
1
解决办法
47
查看次数

标签 统计

python-3.x ×2

list ×1

n-gram ×1

nlp ×1

python ×1

spacy ×1

string ×1

tokenize ×1