标签: distributed-computing

在尝试使用具有多个模块和实体的大型系统“解耦”和同步进程时，我在使用 MSMQ 的道路上走了几步。最近有人告诉我应该考虑使用 AKKA.net 框架，我已经开始研究它。现在我有点犹豫，不确定如何进行。我更熟悉 MSMQ，在我看来，实现会更容易，所需的代码更少。我只会在 DAL（数据访问层）中生成正确的消息，感兴趣的各方（处理程序）会接收它们。我是在比较苹果和橙子吗？任何提示将不胜感激。

msmq distributed-computing akka akka.net

kru*_*rul

lucky-day

2
推荐指数

1
解决办法

865
查看次数

Spark RDD：如何最有效地计算统计数据？

假设存在类似于以下元组的 RDD：

(key1, 1)
(key3, 9)
(key2, 3)
(key1, 4)
(key1, 5)
(key3, 2)
(key2, 7)
...

Run Code Online (Sandbox Code Playgroud)

计算与每个键对应的统计信息的最有效（并且理想情况下是分布式）方法是什么？（目前，我希望计算标准偏差/方差，特别是。）据我所知，我的选择是：

使用colStatsMLLib 中的函数：mllib.stat如果认为需要其他统计计算，这种方法的优点是易于适应以后使用其他函数。但是，它在Vector包含每列数据的 RDD 上运行，据我所知，这种方法需要在单个节点上收集每个键的完整值集，这对于大数据来说似乎并不理想套。Spark 是否Vector总是暗示数据在Vector本地驻留在单个节点上？
执行 a groupByKey, then stats:由于groupByKey操作的结果，可能是重洗牌。
Perform aggregateByKey，初始化一个 new StatCounter，并StatCounter::merge用作序列和组合器函数：这是StackOverflow answer 推荐的方法，避免了groupByKeyfrom 选项 2。但是，我StatCounter在 PySpark 中找不到好的文档。

我喜欢选项 1，因为它使代码更具可扩展性，因为它可以使用其他具有类似合约的 MLLib 函数轻松适应更复杂的计算，但是如果Vector输入本身要求在本地收集数据集，那么它会限制数据大小哪些代码可以有效运行。在其他两个之间，选项 3看起来更有效，因为它避免了groupByKey，但我希望确认情况确实如此。

还有其他我没有考虑过的选择吗？（我目前正在使用 …

distributed-computing apache-spark rdd pyspark apache-spark-mllib

sum*_*tsu

2017 05-23

2
推荐指数

1
解决办法

4148
查看次数

IPFS 搜索文件机制

我正在使用 IPFS（星际文件系统）以分散的方式存储文档/文件。

为了从网络中搜索文件，是否有网络上所有哈希的记录（如水蛭）？
我的请求如何通过网络传播？

search distributed-computing distributed-filesystem ipfs decentralized-applications

Cha*_*hna

lucky-day

2
推荐指数

1
解决办法

1969
查看次数

在 Cloudflare Workers KV 等分布式数据存储中存储 ReadableStream 的用例有哪些？

Cloudflare 自己的全球分布式数据存储 \xe2\x80\x93 Workers KV \xe2\x80\x93可以接受三种“类型”的数据：string、ArrayBuffer和ReadableStream。

虽然前两者的用例足够清楚，但我正在努力弄清楚存储如何ReadableStream有用。我熟悉这个概念：使用它，您可以随着时间的推移“流式传输”不同的值，但是将其放入数据存储中有何意义？典型场景有哪些？

distributed-computing cloudflare serverless cloudflare-workers

Tra*_*oud

2020 12-02

2
推荐指数

1
解决办法

849
查看次数

共识服务 vs 锁服务？

浏览 Google 的Chubby Paper，

与锁服务一样，共识服务允许客户端即使只有一个活动客户端进程也能安全地取得进展；类似的技术已被用来减少拜占庭容错所需的状态机数量[24]。然而，假设共识服务不专门用于提供锁（这将其简化为锁服务），这种方法无法解决上述任何其他问题

他们提到 Chubby 不是共识服务，而是锁定服务，以及共识服务如何用于在节点对等点之间达成共识。

根据我的理解，我认为像 Chubby 和 Zookeeper 这样的服务用于将分布式应用程序问题（例如领导者选举、集群管理、共享资源访问）卸载到不同的应用程序（chubby/zookeeper），并且这些是基于锁的服务。在如何达成共识方面对文件/znode 进行锁定。

什么是共识服务？它们与锁定服务有何不同？

什么时候会使用它们中的任何一个？

distributed-computing distributed-system apache-zookeeper

Roh*_*gam

lucky-day

2
推荐指数

1
解决办法

456
查看次数

无法与远程计算机建立RMI连接

我似乎无法使用RMI连接2台机器.为了确保我的代码没有问题,我复制了维基百科(http://en.wikipedia.org/wiki/Java_remote_method_invocation)中的简单示例,并编辑了代码以打印出一个简单的int.

我尝试提供所有权限并关闭所有防火墙,但仍然出现此错误:

java.rmi.ConnectException: Connection refused to host 55.229.xx.xxx; nested 
exception is:java.net.ConnectException: Connection timed out: connect

Run Code Online (Sandbox Code Playgroud)

在过去的3天里我一直在努力做到这一点,我似乎仍然无法克服基本的配置问题.

java rmi distributed-computing amazon-web-services

spa*_*ron

lucky-day

1
推荐指数

1
解决办法

3423
查看次数

标签统计

distributed-computing ×10

distributed-system ×4

akka ×1

akka.net ×1

amazon-web-services ×1

apache-spark ×1

apache-spark-mllib ×1

apache-zookeeper ×1

clock-synchronization ×1

cloudflare ×1

cloudflare-workers ×1

crdt ×1

decentralized-applications ×1

distributed-filesystem ×1

ipfs ×1

java ×1

msmq ×1

operating-system ×1

parallel-processing ×1

perl ×1

perl-module ×1

pyspark ×1

raft ×1

rdd ×1

rmi ×1

search ×1

sequential ×1

serverless ×1

shared-state ×1

标签 统计

标签统计