下面的代码将句子分成单独的标记,输出如下
"cloud" "computing" "is" "benefiting" " major" "manufacturing" "companies"
import en_core_web_sm
nlp = en_core_web_sm.load()
doc = nlp("Cloud computing is benefiting major manufacturing companies")
for token in doc:
print(token.text)
Run Code Online (Sandbox Code Playgroud)
理想情况下,我想要的是,将“云计算”放在一起阅读,因为它在技术上是一个词。
基本上我正在寻找一个双克。Spacy 中是否有允许 Bi gram 或 Trigram 的任何功能?
我有以下清单
list1= ['Dodd-Frank', 'insurance', 'regulation']
Run Code Online (Sandbox Code Playgroud)
我使用以下命令删除连字符
new1 =[j.replace('-', ' ') for j in list1]
Run Code Online (Sandbox Code Playgroud)
我得到的结果
new1= ['Dodd Frank', 'insurance', 'regulation']
Run Code Online (Sandbox Code Playgroud)
理想的结果是
new1= ['Dodd', 'Frank', 'insurance', 'regulation']
Run Code Online (Sandbox Code Playgroud)
如何以最有效的方式完成此任务