相关疑难解决方法(0)

蟒蛇n克,四,五,六克?

我正在寻找一种将文本分成n-gram的方法.通常我会做类似的事情:

import nltk
from nltk import bigrams
string = "I really like python, it's pretty awesome."
string_bigrams = bigrams(string)
print string_bigrams
Run Code Online (Sandbox Code Playgroud)

我知道nltk只提供bigrams和trigrams,但有没有办法将我的文本分成4克,5克甚至100克?

谢谢!

python string nltk n-gram

115
推荐指数
7
解决办法
12万
查看次数

Spacy 中是否有二元或三元功能?

下面的代码将句子分成单独的标记,输出如下

 "cloud"  "computing"  "is" "benefiting"  " major"  "manufacturing"  "companies"


import en_core_web_sm
nlp = en_core_web_sm.load()

doc = nlp("Cloud computing is benefiting major manufacturing companies")
for token in doc:
    print(token.text)
Run Code Online (Sandbox Code Playgroud)

理想情况下,我想要的是,将“云计算”放在一起阅读,因为它在技术上是一个词。

基本上我正在寻找一个双克。Spacy 中是否有允许 Bi gram 或 Trigram 的任何功能?

nlp tokenize n-gram python-3.x spacy

9
推荐指数
3
解决办法
1万
查看次数

标签 统计

n-gram ×2

nlp ×1

nltk ×1

python ×1

python-3.x ×1

spacy ×1

string ×1

tokenize ×1