我想知道是否有任何 perl 模块可用于启用类似于 apache hadoop 的分布式并行计算。
例如,当提交到客户端节点时,将在许多计算机上并行执行的 perl 脚本。
以多人网络游戏的用例为例。您立即就会遇到在网络上复制和协调共享状态的问题。
似乎有多种工具针对此问题的某个方面,其中两个工具似乎有重叠:
我的问题是:CRDT 和 RAFT 协议之间是否存在关系——或者它们是正交的?
distributed-computing distributed-system shared-state raft crdt
分布式系统中内部时钟同步和外部时钟同步有什么区别?
operating-system distributed-computing distributed-system clock-synchronization
在尝试使用具有多个模块和实体的大型系统“解耦”和同步进程时,我在使用 MSMQ 的道路上走了几步。最近有人告诉我应该考虑使用 AKKA.net 框架,我已经开始研究它。现在我有点犹豫,不确定如何进行。我更熟悉 MSMQ,在我看来,实现会更容易,所需的代码更少。我只会在 DAL(数据访问层)中生成正确的消息,感兴趣的各方(处理程序)会接收它们。我是在比较苹果和橙子吗?任何提示将不胜感激。
假设存在类似于以下元组的 RDD:
(key1, 1)
(key3, 9)
(key2, 3)
(key1, 4)
(key1, 5)
(key3, 2)
(key2, 7)
...
Run Code Online (Sandbox Code Playgroud)
计算与每个键对应的统计信息的最有效(并且理想情况下是分布式)方法是什么?(目前,我希望计算标准偏差/方差,特别是。)据我所知,我的选择是:
colStatsMLLib 中的函数:mllib.stat如果认为需要其他统计计算,这种方法的优点是易于适应以后使用其他函数。但是,它在Vector包含每列数据的 RDD 上运行,据我所知,这种方法需要在单个节点上收集每个键的完整值集,这对于大数据来说似乎并不理想套。Spark 是否Vector总是暗示数据在Vector本地驻留在单个节点上?groupByKey, then stats:由于groupByKey操作的结果,可能是重洗牌。aggregateByKey,初始化一个 new StatCounter,并StatCounter::merge用作序列和组合器函数:这是StackOverflow answer 推荐的方法,避免了groupByKeyfrom 选项 2。但是,我StatCounter在 PySpark 中找不到好的文档。我喜欢选项 1,因为它使代码更具可扩展性,因为它可以使用其他具有类似合约的 MLLib 函数轻松适应更复杂的计算,但是如果Vector输入本身要求在本地收集数据集,那么它会限制数据大小哪些代码可以有效运行。在其他两个之间,选项 3看起来更有效,因为它避免了groupByKey,但我希望确认情况确实如此。
还有其他我没有考虑过的选择吗?(我目前正在使用 …
distributed-computing apache-spark rdd pyspark apache-spark-mllib
我正在使用 IPFS(星际文件系统)以分散的方式存储文档/文件。
search distributed-computing distributed-filesystem ipfs decentralized-applications
Cloudflare 自己的全球分布式数据存储 \xe2\x80\x93 Workers KV \xe2\x80\x93可以接受三种“类型”的数据:string、ArrayBuffer和ReadableStream。
虽然前两者的用例足够清楚,但我正在努力弄清楚存储如何ReadableStream有用。我熟悉这个概念:使用它,您可以随着时间的推移“流式传输”不同的值,但是将其放入数据存储中有何意义?典型场景有哪些?
distributed-computing cloudflare serverless cloudflare-workers
浏览 Google 的Chubby Paper,
与锁服务一样,共识服务允许客户端即使只有一个活动客户端进程也能安全地取得进展;类似的技术已被用来减少拜占庭容错所需的状态机数量[24]。然而,假设共识服务不专门用于提供锁(这将其简化为锁服务),这种方法无法解决上述任何其他问题
他们提到 Chubby 不是共识服务,而是锁定服务,以及共识服务如何用于在节点对等点之间达成共识。
根据我的理解,我认为像 Chubby 和 Zookeeper 这样的服务用于将分布式应用程序问题(例如领导者选举、集群管理、共享资源访问)卸载到不同的应用程序(chubby/zookeeper),并且这些是基于锁的服务。在如何达成共识方面对文件/znode 进行锁定。
什么是共识服务?它们与锁定服务有何不同?
什么时候会使用它们中的任何一个?
我似乎无法使用RMI连接2台机器.为了确保我的代码没有问题,我复制了维基百科(http://en.wikipedia.org/wiki/Java_remote_method_invocation)中的简单示例,并编辑了代码以打印出一个简单的int.
我尝试提供所有权限并关闭所有防火墙,但仍然出现此错误:
java.rmi.ConnectException: Connection refused to host 55.229.xx.xxx; nested
exception is:java.net.ConnectException: Connection timed out: connect
Run Code Online (Sandbox Code Playgroud)
在过去的3天里我一直在努力做到这一点,我似乎仍然无法克服基本的配置问题.
akka ×1
akka.net ×1
apache-spark ×1
cloudflare ×1
crdt ×1
ipfs ×1
java ×1
msmq ×1
perl ×1
perl-module ×1
pyspark ×1
raft ×1
rdd ×1
rmi ×1
search ×1
sequential ×1
serverless ×1
shared-state ×1