如何在Apache Spark中保存和加载MLLib模型

ber*_*o77 10 python apache-spark pyspark apache-spark-mllib

我在Apache Spark(使用pyspark)中训练了一个分类模型.我将模型存储在一个对象中LogisticRegressionModel.现在,我想对新数据做出预测.我想存储模型,并将其读回新程序以进行预测.知道如何存储模型吗?我想的可能是泡菜,但我是python和Spark的新手,所以我想听听社区的想法.

更新:我还需要一个决策树分类器.要阅读它,我需要导入DecisionTreeModelpyspark

Alb*_*nto 10

您可以使用保存模型保存方法mllib模型.

# let lrm be a LogisticRegression Model
lrm.save(sc, "lrm_model.model")
Run Code Online (Sandbox Code Playgroud)

存储后,您可以将其加载到另一个应用程序中.

sameModel = LogisticRegressionModel.load(sc, "lrm_model.model")
Run Code Online (Sandbox Code Playgroud)

正如@ zero323之前所述,还有另一种方法可以实现这一点,并且使用预测模型标记语言(PMML).

是由Data Mining Group开发的基于XML的文件格式,为应用程序提供了一种描述和交换由数据挖掘和机器学习算法生成的模型的方法.