标签: distributed-computing

解释Apache ZooKeeper

我试图了解ZooKeeper,它是如何工作的以及它的作用.有没有可与ZooKeeper相媲美的应用程序?

如果你知道,那么你如何向外行描述ZooKeeper?

我已经尝试过apache wiki,zookeeper sourceforge ......但我仍然无法与之相关.

我只是通过http://zookeeper.sourceforge.net/index.sf.shtml阅读,所以不是有更多这样的服务吗?它只是复制服务器服务这么简单吗?

distributed-computing apache-zookeeper

360
推荐指数
4
解决办法
11万
查看次数

Spark - repartition()vs coalesce()

根据Learning Spark的说法

请记住,重新分区数据是一项相当昂贵的操作.Spark还有一个优化版本的repartition(),称为coalesce(),它允许避免数据移动,但前提是你减少了RDD分区的数量.

我得到的一个区别是,使用repartition()可以增加/减少分区数量,但是使用coalesce()时,只能减少分区数量.

如果分区分布在多台机器上并运行coalesce(),它如何避免数据移动?

distributed-computing apache-spark rdd

208
推荐指数
13
解决办法
15万
查看次数

Spark Standalone集群中的工作者,执行者和核心是什么?

我阅读了Cluster Mode Overview,但仍然无法理解Spark Standalone集群中的不同进程和并行性.

工作者是否是JVM进程?我跑了bin\start-slave.sh,发现它产生了工人,实际上是一个JVM.

根据上面的链接,执行程序是为运行任务的工作节点上的应用程序启动的进程.Executor也是一个JVM.

这些是我的问题:

  1. 执行者是每个应用程序.那么工人的角色是什么?它是否与执行人协调并将结果传达给司机?或者司机是否与执行人直接对话?如果是这样,那么工人的目的是什么呢?

  2. 如何控制应用程序的执行程序数量?3.可以在执行程序内并行执行任务吗?如果是这样,如何配置执行程序的线程数?

  3. 工作者,执行者和执行者核心(--total-executor-cores)之间的关系是什么?

  4. 每个节点拥有更多工人意味着什么?

更新

让我们举个例子来更好地理解.

示例1: 具有5个工作节点的独立群集(每个节点具有8个核心)当我使用默认设置启动应用程序时.

示例2 与示例1相同的集群配置,但我运行具有以下设置的应用程序--executor-cores 10 --total-executor-cores 10.

示例3 与示例1相同的集群配置,但我运行具有以下设置的应用程序--executor-cores 10 --total-executor-cores 50.

示例4 与示例1相同的集群配置,但我运行具有以下设置的应用程序--executor-cores 50 --total-executor-cores 50.

示例5 与示例1相同的集群配置,但我运行具有以下设置的应用程序--executor-cores 50 --total-executor-cores 10.

在每个例子中,有多少执行者?每个执行程序有多少个线程?多少个核心?如何根据申请决定执行人数.它总是与工人数量相同吗?

distributed-computing apache-spark

198
推荐指数
2
解决办法
7万
查看次数

缓存和持久有什么区别?

RDD持久性方面,spark cache()persist()spark 之间有什么区别?

distributed-computing apache-spark rdd

197
推荐指数
6
解决办法
9万
查看次数

什么决定卡夫卡消费者的抵消?

我对卡夫卡比较新.我已经做了一些实验,但有一些事情我不清楚消费者抵消.从我到目前为止所理解的情况来看,当消费者开始时,它将开始读取的偏移量由配置设置决定auto.offset.reset(如果我错了,请纠正我).

现在说,例如主题中有10条消息(偏移0到9),并且消费者在它关闭之前(或者在我杀死消费者之前)恰好消耗了其中的5条消息.然后说我重启那个消费者流程.我的问题是:

  1. 如果auto.offset.reset设置为smallest,它是否总是从偏移量0开始消耗?

  2. 如果auto.offset.reset设置为largest,是否将从偏移量5开始消耗?

  3. 关于这种情况的行为总是确定的吗?

如果我的问题中的任何内容不清楚,请不要犹豫.提前致谢.

java distributed-computing apache-kafka

151
推荐指数
3
解决办法
7万
查看次数

计算十亿数字的中位数

如果您有十亿个数字和一百台计算机,那么找到这些数字的中位数的最佳方法是什么?

我的一个解决方案是:

  • 在计算机之间平均分割集合.
  • 排序他们.
  • 找到每组的中位数.
  • 对中位数进行排序.
  • 从最低到最高中位数一次合并两组.

如果我们m1 < m2 < m3 ...先进行合并Set1,Set2并在结果集中我们可以丢弃低于Set12(合并)中位数的所有数字.所以在任何时候我们都有相同大小的集合.顺便说一下,这不能以并行方式完成.有任何想法吗?

algorithm distributed-computing

123
推荐指数
8
解决办法
4万
查看次数

云计算和分布式计算之间的区别?

我想知道云计算和分布式计算的区别.我读了一篇关于云计算的文章,感觉云计算和分布式计算之间存在某种关系,因此想要询问技术之间的差异.

此外,如果有人能指出我有用的云计算资源,我们将非常感激.

谢谢

cloud distributed-computing

59
推荐指数
5
解决办法
7万
查看次数

Apache Spark vs Akka

你能否告诉我Apache Spark和AKKA之间的区别,我知道这两个框架都意味着编程分布式和并行计算,但我没有看到它们之间的链接或区别.

此外,我想得到适合他们每个人的用例.

parallel-processing distributed-computing bigdata akka apache-spark

56
推荐指数
3
解决办法
4万
查看次数

inter_op_parallelism_threads和intra_op_parallelism_threads的含义

有人可以解释以下TensorFlow术语

  1. inter_op_parallelism_threads

  2. intra_op_parallelism_threads

或者,请提供正确解释来源的链接.

我通过改变参数进行了一些测试,但结果并不一致,无法得出结论.

python parallel-processing distributed-computing tensorflow

50
推荐指数
2
解决办法
3万
查看次数

是否可以在Kafka 0.8.2中为现有主题添加分区

我有一个运行2个分区的Kafka集群.我一直在寻找一种方法将分区数增加到3.但是,我不想丢失主题中的现有消息.我尝试停止Kafka,修改server.properties文件以将分区数增加到3并重新启动Kafka.但是,这似乎没有任何改变.使用Kafka ConsumerOffsetChecker,我仍然看到它只使用了2个分区.我使用的Kafka版本是0.8.2.2.在0.8.1版本中,曾经有一个被调用的脚本kafka-add-partitions.sh,我想这可能会成功.但是,我在0.8.2中没有看到任何这样的脚本.有没有办法实现这个?我确实尝试创建一个全新的主题,对于那个主题,它似乎根据server.properties文件中的更改使用了3个分区.但是,对于现有主题,它似乎并不关心.

java distributed-computing apache-kafka

48
推荐指数
6
解决办法
4万
查看次数