运行预定的Spark作业

Question

运行预定的Spark作业

我有一个Spark作业,它读取源表,执行一些map/flatten/reduce操作,然后将结果存储到我们用于报告的单独表中.目前,此作业是使用spark-submit脚本手动运行的.我想安排它每晚运行,以便在一天开始时预先填充结果.我是:

设置一个cron作业来调用spark-submit脚本？
将计划添加到我的工作类中,以便它提交一次但每晚都执行操作？
Spark中是否有内置机制或单独的脚本可以帮助我做到这一点？

我们在独立模式下运行Spark.

任何建议赞赏!

Answer 1

ben*_*man 13

您可以使用cron选项卡,但实际上当您开始依赖其他火花工作的火花工作时,我会建议弹球用于协调.https://github.com/pinterest/pinball

为了获得一个简单的crontab工作,我将创建包装脚本,如

#!/bin/bash
cd /locm/spark_jobs

export SPARK_HOME=/usr/hdp/2.2.0.0-2041/spark
export HADOOP_CONF_DIR=/etc/hadoop/conf
export HADOOP_USER_NAME=hdfs
export HADOOP_GROUP=hdfs

#export SPARK_CLASSPATH=$SPARK_CLASSPATH:/locm/spark_jobs/configs/*

CLASS=$1
MASTER=$2
ARGS=$3
CLASS_ARGS=$4
echo "Running $CLASS With Master: $MASTER With Args: $ARGS And Class Args: $CLASS_ARGS"

$SPARK_HOME/bin/spark-submit --class $CLASS --master $MASTER --num-executors 4 --executor-cores 4 $ARGS spark-jobs-assembly*.jar $CLASS_ARGS >> /locm/spark_jobs/logs/$CLASS.log 2>&1

Run Code Online (Sandbox Code Playgroud)

然后创建一个crontab