标签: distributed-computing

不同的内核或机器对图的不同部分进行操作（“图拆分”）。例如，通过图本身的反向传播可以并行化，例如通过在不同的机器上托管不同的层，因为（我认为？）autodiff 图始终是DAG。
不同的内核或机器对不同的数据样本进行操作（“数据拆分”）。在 SGD 中，跨批次或样本的梯度计算也可以并行化（例如，可以在不同批次上独立计算梯度后组合梯度）。我相信这也称为梯度累积（？）。

什么时候每种策略更适合哪种类型的问题或神经网络？现代图书馆支持哪些模式？并且可以结合所有四种（2x2）策略吗？

最重要的是，我已经阅读了：

异步训练
同步训练

但我不知道到底是什么，指的，例如：Is it的计算梯度的不同批次的数据或计算梯度不同的子图？或者它可能完全指的是其他东西？

服务

如果网络很大，预测/推理也可能很慢，并且模型在服务时可能不适合内存中的单个机器。是否有任何已知的多核和多节点预测解决方案可以处理此类模型？

distributed-computing deep-learning tensorflow mxnet pytorch

Jos*_*osh

2020 07-10

17
推荐指数

2
解决办法

2141
查看次数

什么是兵马俑？

什么是兵马俑？
它提供什么服务？
它解决了什么问题？
还有哪些产品可以解决类似于Terracotta解决的问题？

java terracotta distributed-computing

Der*_*har

2010 05-04

16
推荐指数

2
解决办法

2万
查看次数

在Hadoop中搜索/查找文件和文件内容

我目前正在使用Hadoop DFS开展项目.

我注意到Hadoop Shell中没有搜索或查找命令.有没有办法在Hadoop DFS中搜索和查找文件(例如testfile.doc)？
Hadoop是否支持文件内容搜索？如果是这样,怎么办？例如,我有许多存储在HDFS中的Word Doc文件,我想列出哪些文件中包含"计算机科学"字样.

在其他分布式文件系统中呢？文件内容搜索是分布式文件系统的软肋吗？

filesystems distributed hadoop file distributed-computing

leo*_*eon

2017 12-22

16
推荐指数

1
解决办法

5万
查看次数

Spark Java错误:大小超过Integer.MAX_VALUE

我正在尝试使用spark进行一些简单的机器学习任务.我使用pyspark和spark 1.2.0来做一个简单的逻辑回归问题.我有120万条培训记录,我记录了记录的功能.当我将散列函数的数量设置为1024时,程序运行正常,但是当我将散列函数的数量设置为16384时,程序会多次失败并出现以下错误:

Py4JJavaError: An error occurred while calling o84.trainLogisticRegressionModelWithSGD.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 4.0 failed 4 times, most recent failure: Lost task 1.3 in stage 4.0 (TID 9, workernode0.sparkexperience4a7.d5.internal.cloudapp.net): java.lang.RuntimeException: java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE
    at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:828)
    at org.apache.spark.storage.DiskStore.getBytes(DiskStore.scala:123)
    at org.apache.spark.storage.DiskStore.getBytes(DiskStore.scala:132)
    at org.apache.spark.storage.BlockManager.doGetLocal(BlockManager.scala:517)
    at org.apache.spark.storage.BlockManager.getBlockData(BlockManager.scala:307)
    at org.apache.spark.network.netty.NettyBlockRpcServer$$anonfun$2.apply(NettyBlockRpcServer.scala:57)
    at org.apache.spark.network.netty.NettyBlockRpcServer$$anonfun$2.apply(NettyBlockRpcServer.scala:57)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)
    at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
    at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)
    at scala.collection.TraversableLike$class.map(TraversableLike.scala:244)
    at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:108)
    at org.apache.spark.network.netty.NettyBlockRpcServer.receive(NettyBlockRpcServer.scala:57)
    at org.apache.spark.network.server.TransportRequestHandler.processRpcRequest(TransportRequestHandler.java:124)
    at org.apache.spark.network.server.TransportRequestHandler.handle(TransportRequestHandler.java:97)
    at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:91)
    at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:44)
    at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105) …

Run Code Online (Sandbox Code Playgroud)

python java distributed-computing logistic-regression apache-spark

pen*_*eng

2018 05-16

16
推荐指数

2
解决办法

1万
查看次数

使用MPI分散不同大小的矩阵块

(假设所有矩阵都按行主顺序存储.)说明问题的一个例子是在3x3网格上分布10x10矩阵,以便每个节点中子矩阵的大小看起来像

|-----+-----+-----|
| 3x3 | 3x3 | 3x4 |
|-----+-----+-----|
| 3x3 | 3x3 | 3x4 |
|-----+-----+-----|
| 4x3 | 4x3 | 4x4 |
|-----+-----+-----|

Run Code Online (Sandbox Code Playgroud)

我在Stackoverflow上看过很多帖子(例如使用MPI和MPI分区矩阵将 C块中的2D数组块发送到块中).但它们只处理相同大小的块(在这种情况下,我们可以简单地使用 MPI_Type_vector或MPI_Type_create_subarray只有一个MPI_Scatterv调用).

所以,我想知道在MPI中将矩阵分散到处理器网格中的最有效方法是什么,其中每个处理器都有一个具有指定大小的块.

PS我也看了MPI_Type_create_darray,但似乎没有让你为每个处理器指定块大小.

c parallel-processing message-passing distributed-computing mpi

Rou*_*oun

2017 05-23

16
推荐指数

1
解决办法

4562
查看次数

什么是分布式系统中的CRDT？

我是分布式系统的新手,我正在尝试深入了解CRDT的概念.我意识到它有三个符号:

Conflict-free Replicated Data Type
Convergent Replicated Data Type
Commutative Replicated Data Type

Run Code Online (Sandbox Code Playgroud)

任何人都可以举例说明我们在分布式系统中使用CRDT吗？非常感谢提前.

distributed-computing distributed-system crdt

fna*_*gwp

lucky-day

15
推荐指数

2
解决办法

5203
查看次数

为什么ESB在微服务架构中被认为是坏的

在微服务架构中,自治业务服务应该直接相互通信.通信可以是同步(编排)或基于事件(编排).API网关可以聚合客户端的API(前端的后端).通过微服务,我们正在寻求两个最终目标

低耦合
高凝聚力

这为更高复杂性的价格提供了持续部署,细粒度扩展,快速技术适应,可重用性,可审计性等等.

但是,强烈建议不要使用ESB(企业服务总线)或其他中间件.微服务和ESB通常被视为竞争对手的解决方案.为什么ESB看起来如此糟糕？只要它仅用作具有一些额外监视和认证层(没有业务逻辑)的冥想通道,在微服务架构中使用它有什么问题？

architecture soa esb distributed-computing microservices

Tuo*_*nen

2018 02-22

15
推荐指数

1
解决办法

6778
查看次数

标签统计

distributed-computing ×10

distributed ×3

hadoop ×2

java ×2

apache-spark ×1

architecture ×1

c ×1

crdt ×1

data-serialization ×1

deep-learning ×1

distributed-system ×1

esb ×1

file ×1

filesystems ×1

logistic-regression ×1

message-passing ×1

microservices ×1

mpi ×1

mxnet ×1

parallel-processing ×1

programming-languages ×1

python ×1

pytorch ×1

rust ×1

soa ×1

tensorflow ×1

terracotta ×1

theory ×1

训练

服务

标签 统计

标签统计