小编Adr*_*ien的帖子

如何使用Scikit Learn CountVectorizer在语料库中获得单词频率？

我正在尝试使用scikit-learn来计算一个简单的单词频率CountVectorizer.

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

texts=["dog cat fish","dog cat cat","fish bird","bird"]
cv = CountVectorizer()
cv_fit=cv.fit_transform(texts)

print cv.vocabulary_
{u'bird': 0, u'cat': 1, u'dog': 2, u'fish': 3}

Run Code Online (Sandbox Code Playgroud)

我期待它回归{u'bird': 2, u'cat': 3, u'dog': 2, u'fish': 2}.

python scikit-learn

Adr*_*ien

2017 11-14

15
推荐指数

4
解决办法

2万
查看次数

标签统计

python ×1

scikit-learn ×1

如何使用Scikit Learn CountVectorizer在语料库中获得单词频率？

标签 统计

小编Adr_ien的帖子

标签统计