标签: distributed-computing

阅读Google的Dataflow API,我的印象是它与Apache Storm的功能非常相似.通过流水线流实时数据处理.除非我完全忽略了这一点,否则我不希望在如何执行彼此写入的管道上建立桥梁,而是期待与Google不同的东西,而不是重新发明轮子.Apache Storm已经很好地放置并可用于任何编程语言.做这样的事情的真正价值是什么？

distributed-computing apache-spark google-cloud-dataflow

Nos*_*mus

2016 11-04

11
推荐指数

1
解决办法

4061
查看次数

如何解释RDD.treeAggregate

我在Apache Spark代码源中遇到了这一行

val (gradientSum, lossSum, miniBatchSize) = data
    .sample(false, miniBatchFraction, 42 + i)
    .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))(
      seqOp = (c, v) => {
        // c: (grad, loss, count), v: (label, features)
        val l = gradient.compute(v._2, v._1, bcWeights.value, Vectors.fromBreeze(c._1))
        (c._1, c._2 + l, c._3 + 1)
      },
      combOp = (c1, c2) => {
        // c: (grad, loss, count)
        (c1._1 += c2._1, c1._2 + c2._2, c1._3 + c2._3)
      }
    )

Run Code Online (Sandbox Code Playgroud)

我读这个有多个麻烦:

首先,我在网上找不到任何可以解释确切treeAggregate工作方式的内容,这些内容的含义是什么.
其次,这里.treeAggregate的方法名称似乎有两个()().这意味着什么？这是一些我不理解的特殊scala语法.
最后,我看到seqOp和comboOp都返回一个3元素元组,它与预期的左侧变量匹配,但实际返回了哪一个？

这个陈述必须非常先进.我无法开始破译这一点.

scala distributed-computing apache-spark rdd

bho*_*ass

2017 06-29

11
推荐指数

1
解决办法

5768
查看次数

Spark Caching:RDD只缓存了8%

对于我的代码段如下:

val levelsFile = sc.textFile(levelsFilePath)
val levelsSplitedFile = levelsFile.map(line => line.split(fileDelimiter, -1))
val levelPairRddtemp = levelsSplitedFile
                              .filter(linearr => ( linearr(pogIndex).length!=0))
                              .map(linearr => (linearr(pogIndex).toLong, levelsIndexes.map(x => linearr(x))
                              .filter(value => (!value.equalsIgnoreCase("") && !value.equalsIgnoreCase(" ") && !value.equalsIgnoreCase("null")))))
                              .mapValues(value => value.mkString(","))
                              .partitionBy(new HashPartitioner(24))
                              .persist(StorageLevel.MEMORY_ONLY_SER)

levelPairRddtemp.count // just to trigger rdd creation

Run Code Online (Sandbox Code Playgroud)

信息

文件的大小是~4G
我使用2 executors(每个5G)和12个核心.
Spark 版本:1.5.2

问题

当我看到它SparkUI时Storage tab,我看到的是:

在里面RDD看来,24个partitions中只有2个被缓存.

对此行为的任何解释,以及如何解决此问题.

编辑1:我刚尝试使用60个分区HashPartitioner作为:

..
.partitionBy(new HashPartitioner(60))
..

Run Code Online (Sandbox Code Playgroud)

它工作了.现在我得到了整个RDD缓存.有什么猜测这里可能发生了什么？数据偏差是否会导致此行为？ …

memory-management scala distributed-computing apache-spark rdd

Moh*_*itt

2016 10-30

11
推荐指数

1
解决办法

375
查看次数

Lamport同步算法讨论中的“偏序”和“全序”是什么意思？

我的理解是，部分排序和全排序是两组规则。

偏序具有三个规则：
(1) 如果 a 和 b 是同一进程中的两个事件，并且 a 在 b 之前，则 a->b。
(2) ...
(3) ...

那么什么是全序呢？

为何如此命名？

algorithm synchronization distributed-computing system-clock

use*_*312

lucky-day

11
推荐指数

1
解决办法

5949
查看次数

在分布式计算中，世界大小和排名是什么？

我一直在阅读一些文档和示例代码，最终目标是为分布式计算（运行 PyTorch）编写脚本，但这些概念让我感到困惑。

假设我们有一个带有 4 个 GPU 的节点，并且我们希望在这 4 个 GPU 上运行我们的脚本（即每个 GPU 一个进程）。在这种情况下，排名世界大小和排名是多少？我经常找到对世界大小的解释：工作中涉及的进程总数，所以我假设在我们的例子中是四个，但是排名呢？

为了进一步解释，另一个具有多个节点和多个 GPU 的示例也很有用。

python distributed-computing python-3.x pytorch

Bra*_*roy

lucky-day

11
推荐指数

2
解决办法

4145
查看次数

标签统计

distributed-computing ×10

apache-spark ×3

scala ×3

rdd ×2

akka ×1

algorithm ×1

api ×1

artificial-intelligence ×1

cloud ×1

distributed ×1

distributed-transactions ×1

google-cloud-dataflow ×1

java ×1

javascript ×1

memory-management ×1

neural-network ×1

pagination ×1

postgresql ×1

python ×1

python-3.x ×1

pytorch ×1

synchronization ×1

system-clock ×1

标签 统计

标签统计