标签: distributed-system

Lustre(http://wiki.lustre.org/index.php?title=Main_Page):非常接近,但它不为节点上的数据提供冗余.您必须使用RAID或DRBD创建数据HA.在Sun和Open Source的支持下,它应该存在一段时间
gfarm(http://datafarm.apgrid.org/):看起来它提供了冗余,但代价是复杂性和可维护性.不像Lustre那样得到支持.

有没有人对这些或任何其他可能有效的系统有任何经验？

linux filesystems distributed-computing distributed-system

Eri*_*ric

lucky-day

34
推荐指数

2
解决办法

4万
查看次数

实时分布式系统的基本要素是什么？

我正在接受承包,今天我已经接受了承包商职位的第一轮面试.我已经通过了它,但有人告诉我 - 主要是一个UI开发人员 - 我只介绍了他们后端需要的基础知识,我应该在第二轮之前阅读分布式系统.

到目前为止,在我的职业生涯中,我一直在从事后期操作,从不需要实时.由于我还剩下几天,我需要涵盖哪些主题？首先能够回答他的问题并且通常被视为分布式系统中的适当问题？

问题是如何在UI上实时显示数据？后端需要做什么？我已经提到了实时数据馈送的生产者/消费者模式.他很喜欢,但他说他在第二次面试时需要更多.

任何帮助将非常感激,

distributed real-time distributed-computing distributed-system

Hou*_*man

2011 02-28

27
推荐指数

1
解决办法

2万
查看次数

关于消息总线/命令调度程序模式的混淆

最近我一直在阅读很多有关分布式消息传递和相关模式的内容.我使用了一些工具支持的例子,比如例如NServiceBus.

许多这些模式都在互联网上描述.我最近读到的其中一些是:

Message Broker:http://msdn.microsoft.com/en-us/library/ff648849.aspx
消息总线:http://msdn.microsoft.com/en-us/library/ms978583.aspx
SOA中的消息传递模式:http://msdn.microsoft.com/en-us/library/aa480027.aspx
Udi Dahan关于差异的帖子:http://www.udidahan.com/2011/03/24/bus-and-broker-pubsub-differences/

如果使用像NService bus这样的工具来做很多工作而不考虑基础设施问题,那么当我尝试实现基本的Message Bus和命令处理程序时,一些问题已经得到了解决.事实上,当谈到这些模式时,我看不出它们之间存在很多差异.

我不会粘贴代码,因为它很长,但我发现了两篇博文,很好地描述了我想谈的实现的想法.

消息总线:http://brentedwards.net/2010/04/13/roll-your-own-simple-message-bus-event-aggregator/

这个想法很简单,消息总线跟踪订阅者并在他们感兴趣的情况下将消息发送给不同的订阅者.

命令处理程序:http://weblogs.asp.net/shijuvarghese/archive/2011/10/18/cqrs-commands-command-handlers-and-command-dispatcher.aspx

它与消息总线非常相似.命令总线为给定的命令类型调用命令处理程序.

所以在这两种情况下都有相似之处.

使用一种模式比另一种模式有什么真正的差异和好处(我不是在谈论支持工具).我错过了什么？

第二个问题是.没有支持工具,消息总线是否有价值？我不认为自己会为自己的所有权利提供支持.

对于一个冗长而令人困惑的问题我很抱歉,但请不要犹豫,询问更多细节.

design-patterns distributed-system event-handling message-bus

Tom*_*uλa

2011 12-03

25
推荐指数

1
解决办法

8769
查看次数

术语：跟踪 ID 与相关 ID

我试图理解以下术语之间的区别：

迹线ID
相关ID

这两个术语似乎都用作搜索多个服务产生的相关日志的标识符，尤其是在面向微服务的架构中。

这两者之间有细微的差别吗？

我们应该在我们的软件中使用这些术语中的哪一个？我们如何决定？

logging terminology distributed-system microservices

ale*_*ine

lucky-day

23
推荐指数

2
解决办法

1万
查看次数

为什么在CAP定理中没有RDBMS分区容忍以及为什么它可用？

关于RDBMS在CAP定理中是CA的两点我不明白:

1)它说RDBMS 不是 分区容忍但是RDBMS如何比MongoDB或Cassandra等其他技术更少分区容忍？是否存在RDBMS设置,我们放弃CA以使其成为AP或CP？

2)CAP如何可用？是通过主从设置吗？在主机死机时,从机接管写入？

我是DB架构和CAP定理的新手所以请耐心等待.

rdbms distributed-computing distributed-system nosql cap-theorem

Gli*_*ide

2017 09-23

20
推荐指数

3
解决办法

7107
查看次数

如何解决著名的“未处理的 cuda 错误，NCCL 版本 2.7.8”错误？

我见过多个有关以下问题的问题：

RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1614378083779/work/torch/lib/c10d/ProcessGroupNCCL.cpp:825, unhandled cuda error, NCCL version 2.7.8
ncclUnhandledCudaError: Call to CUDA function failed.

Run Code Online (Sandbox Code Playgroud)

但似乎没有人能帮我解决这个问题：

我尝试torch.cuda.set_device(device)在每个脚本的开头手动执行。这似乎对我不起作用。我尝试过不同的 GPU。我尝试过降级pytorch版本和cuda版本。1.6.0、1.7.1、1.8.0 和 cuda 10.2、11.0、11.1 的不同组合。我不确定还能做什么。人们做了什么来解决这个问题？

也许非常相关？

Pytorch“NCCL 错误”：未处理的系统错误，NCCL 版本 2.4.8”

更完整的错误消息：

('jobid', 4852)
('slurm_jobid', -1)
('slurm_array_task_id', -1)
('condor_jobid', 4852)
('current_time', 'Mar25_16-27-35')
('tb_dir', PosixPath('/home/miranda9/data/logs/logs_Mar25_16-27-35_jobid_4852/tb'))
('gpu_name', 'GeForce GTX TITAN X')
('PID', '30688')
torch.cuda.device_count()=2

opts.world_size=2

ABOUT TO SPAWN WORKERS
done setting sharing strategy...next mp.spawn
INFO:root:Added key: store_based_barrier_key:1 to store for rank: 1
INFO:root:Added key: store_based_barrier_key:1 to store …

Run Code Online (Sandbox Code Playgroud)

distributed-computing distributed-system pytorch

Cha*_*ker

2022 05-13

20
推荐指数

1
解决办法

3万
查看次数