到目前为止我得到了什么

以下是我了解Spark中发生的事情:

当SparkContext被创建,每个工作节点开始执行人.执行程序是单独的进程(JVM),它连接回驱动程序.每个执行程序都有驱动程序的jar.退出驱动程序,关闭执行程序.每个执行程序都可以保存一些分区.
执行作业时,将根据沿袭图创建执行计划.
执行作业分为几个阶段,其中阶段包含尽可能多的邻近(在谱系图中)转换和动作,但没有随机播放.因此阶段通过混洗分开.

我明白那个

任务是通过序列化Function对象从驱动程序发送到执行程序的命令.

执行程序反序列化(使用驱动程序jar)命令(任务)并在分区上执行它.

但

问题(S)

如何将舞台分成这些任务？

特别:

是由变换和操作决定的任务还是可以在任务中进行多个转换/操作？
任务是由分区确定的(例如,每个分区每个阶段一个任务).
任务是由节点确定的(例如,每个节点每个阶段一个任务)？

我的想法(只有部分答案,即使是正确的)

在https://0x0fff.com/spark-architecture-shuffle中,随着图像解释了随机播放

我得到了规则的印象

每个阶段被分成#count-of-partitions任务,不考虑节点数量

对于我的第一张图片,我会说我有3个地图任务和3个减少任务.

对于来自0x0fff的图像,我会说有8个地图任务和3个减少任务(假设只有三个橙色和三个深绿色文件).

无论如何都要打开问题

那是对的吗？但即使这是正确的,我上面的问题也没有全部回答,因为它仍然是开放的,无论多个操作(例如多个地图)是在一个任务内还是每个操作分成一个任务.

别人怎么说

Spark的任务是什么？Spark工作人员如何执行jar文件？以及Apache Spark调度程序如何将文件拆分为任务？是相似的,但我觉得我的问题在那里得不到清楚.

apache-spark

Mak*_*e42

2017 05-23

125
推荐指数

3
解决办法

4万
查看次数

从https://conda.io/docs/user-guide/tasks/manage-environments.html#exporting-the-environment-file导出我的旧的非活动项目使用哪些包(d),然后删除这些环境.据我了解,这应该释放一些空间anaconda2/envs/,但不是anaconda2/pkgs/.我如何摆脱这些包裹？另外,我怀疑可能还有很多软件包仍然存在,没有环境可以链接到 - 这可能会发生吗？

问题:

一般来说:减少conda占用空间的最佳方法是什么？
如何摆脱没有环境使用的软件包？我该如何修剪我的包裹？我正在寻找像sudo apt-get autoremoveUbuntu/Debian 这样的东西.

python anaconda conda

Mak*_*e42

2018 02-09

32
推荐指数

2
解决办法

2万
查看次数

ggplot2:将图例分为两列,每列都有自己的标题

我有这些因素

require(ggplot2)
names(table(diamonds$cut))
# [1] "Fair"      "Good"      "Very Good" "Premium"   "Ideal"

小编Mak*_*e42的帖子

到目前为止我得到了什么

问题(S)

我的想法(只有部分答案,即使是正确的)

无论如何都要打开问题

别人怎么说

为什么m2r不起作用

标签 统计

小编Mak_e42的帖子

标签统计