我如何将Apache Spark与Play Framework集成以实时显示预测?

Dou*_*tes 6 scala playframework-2.0 apache-spark spark-streaming apache-spark-mllib

我正在用Apache Spark进行一些测试,这是我在大学的最后一个项目.我有一个数据集,用于生成决策树,并对新数据进行一些预测.

在将来,我认为将这个项目用于生产,我将在其中生成决策树(批处理),并通过Web界面或移动应用程序接收新数据,预测该条目的类,并通知结果立即给用户.并且还会在一段时间后存储这些新条目,生成新的决策树(批处理),并连续重复此过程.

尽管Apache Spark的目的是执行批处理,但是有一个流API可以让您接收实时数据,而在我的应用程序中,这些数据只能由一个带有决策树的批处理中构建的模型使用,以及预测如何快速,它允许用户快速得到答案.

我的问题是什么是将Apache Spark与Web应用程序集成的最佳方法(计划使用Play Framework scala版本)?

Dav*_*fin 4

使用 Spark 时会遇到的问题之一是启动和构建 SparkContext 需要一些时间。如果您想通过 Web 调用进行 Spark 查询,那么每次都启动 Spark-Submit 是不切实际的。相反,您需要将驱动程序应用程序(这些术语稍后会更有意义)转变为 RPC 服务器。

在我的应用程序中,我嵌入了一个 Web 服务器 (http4s),这样我就可以在 JavaScript 中执行 XmlHttpRequests 来直接查询我的应用程序,这将返回 JSON 对象。