ALS模型的增量训练

Wou*_*ter 17 machine-learning prediction apache-spark predictionio apache-spark-mllib

我试图找出是否有可能在Apache Spark中使用MLlib对数据进行"增量训练".

我的平台是Prediction IO,它基本上是Spark(MLlib),HBase,ElasticSearch和其他一些Restful部件的包装器.

在我的应用数据中,"事件"是实时插入的,但为了获得更新的预测结果,我需要"pio train"和"pio deploy".这需要一些时间,服务器在重新部署期间会脱机.

我想弄清楚我是否可以在"预测"阶段进行增量训练,但找不到答案.

小智 0

通过使用折叠技术来近乎在线更新您的模型(我写近,因为面对现实,真正的在线更新是不可能的),例如:用于 大规模推荐系统的在线更新正则化核矩阵分解模型。

瓯你可以看看代码:

  • 我的媒体精简版
  • Oryx - 使用 Lambda 架构范例构建框架。并且它应该具有包含新用户/项目的更新。

这是我对类似问题的回答的一部分,其中两个问题:近在线培训和处理新用户/项目混合在一起。