小编jer*_*ing的帖子

Gensim:如何将LDA模型生成的主题保存为可读格式(csv,txt等)？

代码的最后部分:

lda = LdaModel(corpus=corpus,id2word=dictionary, num_topics=2)
print lda

Run Code Online (Sandbox Code Playgroud)

bash输出:

INFO : adding document #0 to Dictionary(0 unique tokens)
INFO : built Dictionary(18 unique tokens) from 5 documents (total  20 corpus positions)
INFO : using serial LDA version on this node
INFO : running online LDA training, 2 topics, 1 passes over the supplied corpus of 5 documents, updating model once every 5 documents
WARNING : too few updates, training might not converge; consider increasing the number of passes to improve accuracy …

Run Code Online (Sandbox Code Playgroud)

python lda gensim

jer*_*ing

2016 08-16

8
推荐指数

2
解决办法

2万
查看次数

烫伤:如何在groupBy('field){.size}之后保留其他字段？

所以我的输入数据有两个字段/列:id1和id2,我的代码如下:

TextLine(args("input"))
.read
.mapTo('line->('id1,'id2)) {line: String =>
    val fields = line.split("\t")
        (fields(0),fields(1))
}
.groupBy('id2){.size}
.write(Tsv(args("output")))

Run Code Online (Sandbox Code Playgroud)

输出结果(我假设)两个字段:id2*size.我有点坚持找出是否可以保留id2值并将其与id2分组并将其添加为另一个字段？

twitter cascading scalding

jer*_*ing

lucky-day

6
推荐指数

1
解决办法

2098
查看次数