cha*_*uru 31 batch-processing job-scheduling apache-spark
我已经完成了spark安装并执行了几个设置master和worker节点的测试用例.也就是说,我对Spark上下文(而不是SparkContext)中的作业意味着什么非常混乱.我有以下问题
我阅读了Spark文档,但这件事对我来说还不清楚.
话虽如此,我的实现是编写火花作业{programmatically},这将火花提交.
如果可能,请帮助一些例子.这将非常有帮助.
注意:请不要发布spark链接,因为我已经尝试过了.虽然这些问题听起来很幼稚,但我仍需要更清晰的理解.
Dan*_*don 42
嗯,术语总是很难,因为它取决于上下文.在许多情况下,您可以习惯于"将作业提交到群集",其中火花就是提交驱动程序.
也就是说,Spark直接从词汇表中对"工作"有自己的定义:
作业一种并行计算,由多个任务组成,这些任务是为了响应Spark动作而产生的(例如,保存,收集); 你会在驱动程序的日志中看到这个术语.
所以我在这个背景下,假设您需要执行以下操作:
所以,
希望它能让事情更清晰;-)
| 归档时间: |
|
| 查看次数: |
20849 次 |
| 最近记录: |