小编man*_*dar的帖子

Spark Sql registerTempTable和registerDataFrameAsTable的区别

Spark SQL中的registerTempTableregisterDataFrameAsTable方法有什么区别 ,哪种情况更好.

apache-spark apache-spark-sql

9
推荐指数
1
解决办法
5451
查看次数

无法使用SparkSubmitOperator执行Spark作业

我可以使用运行Spark作业,BashOperator但我想SparkSubmitOperator使用Spark 独立模式使用它。


这是我的DAGfor SparkSubmitOperator堆栈跟踪

args = {
    'owner': 'airflow',
    'start_date': datetime(2018, 5, 24)
}
dag = DAG('spark_job', default_args=args, schedule_interval="*/10 * * * *")

operator = SparkSubmitOperator(
    task_id='spark_submit_job',
    application='/home/ubuntu/test.py',
    total_executor_cores='1',
    executor_cores='1',
    executor_memory='2g',
    num_executors='1',
    name='airflow-spark',
    verbose=False,
    driver_memory='1g',
    conf={'master':'spark://xx.xx.xx.xx:7077'},
    dag=dag,
)
Run Code Online (Sandbox Code Playgroud)

寻找来源spark_submit_hook似乎_resolve_connection()总在进行master=yarn。如何通过独立的主URL 更改master 属性值Spark?我可以设置哪些属性Spark独立模式运行作业?

airflow

6
推荐指数
1
解决办法
2248
查看次数

Spark中的峰值执行内存

在Apache spark UI阶段级别的指标之一是"峰值执行内存"?这个指标表明了什么.

apache-spark apache-spark-sql

4
推荐指数
1
解决办法
2941
查看次数

标签 统计

apache-spark ×2

apache-spark-sql ×2

airflow ×1