小编Adr*_*ien的帖子

如何使用Scikit Learn CountVectorizer在语料库中获得单词频率?

我正在尝试使用scikit-learn来计算一个简单的单词频率CountVectorizer.

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

texts=["dog cat fish","dog cat cat","fish bird","bird"]
cv = CountVectorizer()
cv_fit=cv.fit_transform(texts)

print cv.vocabulary_
{u'bird': 0, u'cat': 1, u'dog': 2, u'fish': 3}
Run Code Online (Sandbox Code Playgroud)

我期待它回归{u'bird': 2, u'cat': 3, u'dog': 2, u'fish': 2}.

python scikit-learn

15
推荐指数
4
解决办法
2万
查看次数

标签 统计

python ×1

scikit-learn ×1