Apache Spark应用程序工作流程

zie*_*ony 6 workflow apache-spark

您如何组织Spark开发工作流程?

我的方式:

  1. 当地的hadoop /纱线服务.
  2. 本地火花服务.
  3. Intellij在一个屏幕上
  4. 终端与运行sbt控制台
  5. 在我更改Spark应用程序代码后,我切换到终端并运行"package"以编译为jar和"submitSpark"这是运行spark-submit的stb任务
  6. 在sbt控制台等待异常:)

我也尝试使用spark-shell:

  1. 运行shell并加载以前编写的应用程序.
  2. 在shell中写入行
  3. 评估它
  4. 如果它可以很好地复制到IDE
  5. 在少量2,3,4之后,将代码粘贴到IDE,编译spark app并重新开始

有没有办法更快地开发Spark应用程序?

maa*_*asg 4

我使用交互式环境进行快速原型开发,开发 Spark 作业的核心逻辑。为此,我们使用针对开发集群运行的Spark Notebook 。

一旦我建立了逻辑原型并且它按预期工作,我就使用经典的构建生命周期将 Scala 项目中的代码“工业化”:创建测试;由 Jenkins 构建、打包和创建工件。