我试图根据他们的TF-IDF分数在语料库中找到最重要的单词.
按照https://radimrehurek.com/gensim/tut2.html上的示例进行操作.基于
>>> for doc in corpus_tfidf:
... print(doc)
Run Code Online (Sandbox Code Playgroud)
TF-IDF得分在每次迭代中都会得到更新.例如,
所以这就是我目前如何获得每个单词的最终TF-IDF分数,
tfidf = gensim.models.tfidfmodel.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
d = {}
for doc in corpus_tfidf:
for id, value in doc:
word = dictionary.get(id)
d[word] = value
Run Code Online (Sandbox Code Playgroud)
有没有更好的办法?
提前致谢.
我有一个时间序列数据集,看起来有点像
ts userid v1 v2
2016-04-23 10:50:12 100001 10 ac
2016-04-23 11:23:29 100002 11 ad
2016-04-23 11:56:57 100002 11 ad
2016-04-23 12:33:38 100001 12 ae
2016-04-23 13:06:43 100001 13 aa
2016-04-23 14:16:34 100001 14 ag
2016-04-23 15:26:39 100002 15 ab
2016-04-23 23:29:31 100003 23 aw
Run Code Online (Sandbox Code Playgroud)
我想提取v1
每个用户的计数- 进入类似的新DataFrame
userid v1_0 ... v1_10 v1_11 v1_12 v1_13 v1_14 v1_15 ... v1_23
100001 0 ... 1 0 1 1 1 0 ... 0
100002 0 ... 0 2 0 0 0 1 …
Run Code Online (Sandbox Code Playgroud)