Apache Spark应用程序工作流程

zie*_*ony 6 workflow apache-spark

您如何组织Spark开发工作流程？

我的方式:

当地的hadoop /纱线服务.
本地火花服务.
Intellij在一个屏幕上
终端与运行sbt控制台
在我更改Spark应用程序代码后,我切换到终端并运行"package"以编译为jar和"submitSpark"这是运行spark-submit的stb任务
在sbt控制台等待异常:)

我也尝试使用spark-shell:

运行shell并加载以前编写的应用程序.
在shell中写入行
评估它
如果它可以很好地复制到IDE
在少量2,3,4之后,将代码粘贴到IDE,编译spark app并重新开始

有没有办法更快地开发Spark应用程序？

我使用交互式环境进行快速原型开发，开发 Spark 作业的核心逻辑。为此，我们使用针对开发集群运行的Spark Notebook 。

一旦我建立了逻辑原型并且它按预期工作，我就使用经典的构建生命周期将 Scala 项目中的代码“工业化”：创建测试；由 Jenkins 构建、打包和创建工件。

归档时间：	10 年，7 月前
查看次数：	1740 次
最近记录：	8 年，8 月前

如何在Spark中处理执行程序内存和驱动程序内存？ 44

pyspark错误:AttributeError:'SparkSession'对象没有属性'parallelize' 12

如果用户id是字符串而不是连续的整数,如何使用mllib.recommendation？ 11

Spark-如何通过“ SparkLauncher”识别失败的作业 6

无法使用案例类从RDD的Row创建数据框 5

reduceByKey是什么意思(_ ++ _) 5

Spark 1.6的多类SVM？ 4

如何在 cassandra 中创建键空间？ 3

实木复合地板架构和Spark 1

PySpark insertInto 覆盖 1

JavaScript闭包如何工作？ 7644

如何有效地配对袜子？ 3850

如何检查变量是否是JavaScript中的数组？ 1713

什么是非捕获组？(？:)做什么？ 1653

如何在jQuery Ajax调用之后管理重定向请求 1319

如何在Java中连接两个数组？ 1299

如何在悬停而不是单击时使Twitter Bootstrap菜单下拉列表 1146

创建将T限制为枚举的通用方法 1122

如何从Python字符串中修剪空格？ 1103

如何进行HTTP POST Web请求 1033