Spark中的潜在Dirichlet分配（LDA）-复制模型

Question

Spark中的潜在Dirichlet分配（LDA）-复制模型

我想从pyspark ml-clustering包中保存LDA模型，并在保存后将其应用于训练和测试数据集。然而，尽管播下了种子，结果却有所不同。我的代码如下：

1）导入包

from pyspark.ml.clustering import LocalLDAModel, DistributedLDAModel
from pyspark.ml.feature import CountVectorizer , IDF

Run Code Online (Sandbox Code Playgroud)

2）准备数据集

countVectors = CountVectorizer(inputCol="requester_instruction_words_filtered_complete", outputCol="raw_features", vocabSize=5000, minDF=10.0)
cv_model = countVectors.fit(tokenized_stopwords_sample_df)
result_tf = cv_model.transform(tokenized_stopwords_sample_df)
vocabArray = cv_model.vocabulary
idf = IDF(inputCol="raw_features", outputCol="features")
idfModel = idf.fit(result_tf)
result_tfidf = idfModel.transform(result_tf)
result_tfidf = result_tfidf.withColumn("id", monotonically_increasing_id())    
corpus = result_tfidf.select("id", "features")

Run Code Online (Sandbox Code Playgroud)

3）训练LDA模型

lda = LDA(k=number_of_topics, maxIter=100, docConcentration = [alpha], topicConcentration = beta, seed = 123)
model = lda.fit(corpus)
model.save("LDA_model_saved")
topics = model.describeTopics(words_in_topic)  
topics_rdd = topics.rdd
modelled_corpus = model.transform(corpus)

Run Code Online (Sandbox Code Playgroud)

4）复制模型

#Prepare the data set
countVectors = CountVectorizer(inputCol="requester_instruction_words_filtered_complete", outputCol="raw_features", vocabSize=5000, minDF=10.0)
cv_model = countVectors.fit(tokenized_stopwords_sample_df)
result_tf = cv_model.transform(tokenized_stopwords_sample_df)
vocabArray = cv_model.vocabulary
idf = IDF(inputCol="raw_features", outputCol="features")
idfModel = idf.fit(result_tf)
result_tfidf = idfModel.transform(result_tf)   
result_tfidf = result_tfidf.withColumn("id", monotonically_increasing_id())
corpus_new = result_tfidf.select("id", "features")

#Load the model to apply to new corpus
newModel = LocalLDAModel.load("LDA_model_saved")
topics_new = newModel.describeTopics(words_in_topic)  
topics_rdd_new = topics_new.rdd
modelled_corpus_new = newModel.transform(corpus_new)

Run Code Online (Sandbox Code Playgroud)

尽管我认为相等，但以下结果是不同的：（ topics_rdd != topics_rdd_new并且modelled_corpus != modelled_corpus_new（在检查提取的主题时，它们也与数据集上的预测类不同）

因此，即使我在模型生成中设置了种子，我还是感到奇怪的是，同一模型在同一数据集上预测了不同的类（“主题”）。有复制LDA模型经验的人可以提供帮助吗？

谢谢：）

Answer 1

ayu*_*mar 2

我在 PYSPARK 中实现 LDA 时遇到了类似的问题。尽管我使用了种子，但每次我在具有相同参数的相同数据上重新运行代码时，结果都是不同的。

在尝试了多种方法后，我想出了以下解决方案：

运行一次后保存cv_model并在下一次迭代中加载它，而不是重新拟合它。
这和我的数据集比较相关。我使用的语料库中的一些文档的大小非常小（每个文档大约 3 个单词）。我过滤掉了这些文档并设置了限制，这样只有那些至少包含 15 个单词的文档才会包含在语料库中（您的语料库可能更高）。我不确定为什么这个有效，可能与强调模型复杂性的某些事情有关。

总而言之，即使经过几次迭代，我的结果也是相同的。希望这可以帮助。

归档时间：	6 年，11 月前
查看次数：	251 次
最近记录：	6 年，7 月前