小编Roz*_*low的帖子

每个文档/总计中哪 10 个单词的 TF-IDF 值最高?

我正在尝试获取每个文档中 TF-IDF 得分最高的 10 个单词。

我的数据框中有一列包含来自我的各种文档的预处理文本(没有标点符号、停用词等)。在此示例中,一行表示一个文档。

我的数据框

它有 500 多行,我很好奇每行中最重要的单词。

所以我运行了以下代码:

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(df['liststring'])
feature_names = vectorizer.get_feature_names()
dense = vectors.todense()
denselist = dense.tolist()
df2 = pd.DataFrame(denselist, columns=feature_names)
Run Code Online (Sandbox Code Playgroud)

这给了我一个 TF-IDF 矩阵:

tf idf 矩阵

我的问题是,如何收集 TF-IDF 值最高的前 10 个单词?最好在我的原始数据框 (df) 中创建一个列,其中包含每行的前 10 个单词,同时还知道哪些单词总体上最重要。

python tf-idf pandas scikit-learn tfidfvectorizer

4
推荐指数
1
解决办法
5259
查看次数

标签 统计

pandas ×1

python ×1

scikit-learn ×1

tf-idf ×1

tfidfvectorizer ×1