小编use*_*188的帖子

使用Gensim获得TF-IDF的单词分数

我试图根据他们的TF-IDF分数在语料库中找到最重要的单词.

按照https://radimrehurek.com/gensim/tut2.html上的示例进行操作.基于

>>> for doc in corpus_tfidf:
...     print(doc)

Run Code Online (Sandbox Code Playgroud)

TF-IDF得分在每次迭代中都会得到更新.例如,

Word 0(基于https://radimrehurek.com/gensim/tut1.html的 " 计算机 " )的TF-IDF分数为0.5773(Doc#1),0.4442(Doc#2).
Word 10(" 图表 ")的TF-IDF分数为0.7071(Doc#7),0.5080(Doc#8),0.4588(Doc#9)

所以这就是我目前如何获得每个单词的最终TF-IDF分数,

tfidf = gensim.models.tfidfmodel.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
d = {}
for doc in corpus_tfidf:
    for id, value in doc:
        word = dictionary.get(id)
        d[word] = value

Run Code Online (Sandbox Code Playgroud)

有没有更好的办法？

提前致谢.

python tf-idf gensim

use*_*188

lucky-day

7
推荐指数

1
解决办法

6836
查看次数

Pandas value_counts进入新列

我有一个时间序列数据集,看起来有点像

ts                  userid  v1   v2
2016-04-23 10:50:12 100001  10   ac
2016-04-23 11:23:29 100002  11   ad
2016-04-23 11:56:57 100002  11   ad
2016-04-23 12:33:38 100001  12   ae
2016-04-23 13:06:43 100001  13   aa
2016-04-23 14:16:34 100001  14   ag
2016-04-23 15:26:39 100002  15   ab
2016-04-23 23:29:31 100003  23   aw

Run Code Online (Sandbox Code Playgroud)

我想提取v1每个用户的计数- 进入类似的新DataFrame

userid   v1_0 ... v1_10 v1_11 v1_12 v1_13 v1_14 v1_15 ... v1_23
100001     0  ...   1     0     1     1     1     0   ...   0
100002     0  ...   0     2     0     0     0     1 …

Run Code Online (Sandbox Code Playgroud)

python pandas

use*_*188

2016 07-14

2
推荐指数

1
解决办法

585
查看次数