相关疑难解决方法(0)

使用 Gensim 提取短语时出错

我正在尝试使用 Gensim 中的短语获取句子中的二元组,如下所示。

from gensim.models import Phrases
from gensim.models.phrases import Phraser
documents = ["the mayor of new york was there", "machine learning can be useful sometimes","new york mayor was present"]

sentence_stream = [doc.split(" ") for doc in documents]
#print(sentence_stream)
bigram = Phrases(sentence_stream, min_count=1, threshold=2, delimiter=b' ')
bigram_phraser = Phraser(bigram)

for sent in sentence_stream:
    tokens_ = bigram_phraser[sent]
    print(tokens_)
Run Code Online (Sandbox Code Playgroud)

即使将“new”、“york”捕获为“new york”,它也不会捕获“machine”,将学习作为“机器学习”

但是,在Gensim 网站上显示示例中,他们能够将“机器”、“学习”等词捕获为“机器学习”。

请让我知道如何在上面的示例中将“机器学习”作为二元组

python data-mining text-mining gensim word2vec

3
推荐指数
1
解决办法
1293
查看次数

标签 统计

data-mining ×1

gensim ×1

python ×1

text-mining ×1

word2vec ×1