小编Roz*_*low的帖子

每个文档/总计中哪 10 个单词的 TF-IDF 值最高？

我正在尝试获取每个文档中 TF-IDF 得分最高的 10 个单词。

我的数据框中有一列包含来自我的各种文档的预处理文本（没有标点符号、停用词等）。在此示例中，一行表示一个文档。

它有 500 多行，我很好奇每行中最重要的单词。

所以我运行了以下代码：

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(df['liststring'])
feature_names = vectorizer.get_feature_names()
dense = vectors.todense()
denselist = dense.tolist()
df2 = pd.DataFrame(denselist, columns=feature_names)

Run Code Online (Sandbox Code Playgroud)

这给了我一个 TF-IDF 矩阵：