标签: fault-tolerance

编译用于高放射性环境的应用程序

我们正在编译嵌入式C/C++应用程序,该应用程序部署在受电离辐射轰击的环境中的屏蔽设备中.我们正在使用GCC和ARM进行交叉编译.部署后,我们的应用程序会生成一些错误的数据,并且比我们想要的更频繁地崩溃.硬件专为此环境而设计,我们的应用程序已在此平台上运行了数年.

我们可以对代码进行更改,还是可以进行编译时改进,以识别/纠正由单个事件干扰引起的软错误和内存损坏？是否有其他开发人员能够成功地减少软错误对长期运行的应用程序的有害影响？

c c++ embedded gcc fault-tolerance

roo*_*ook

2018 03-01

1414
推荐指数

20
解决办法

11万
查看次数

如果抛出异常,Akka Actor不会终止

我目前正试图开始使用Akka,我面临一个奇怪的问题.我的演员有以下代码:

class AkkaWorkerFT extends Actor {
  def receive = {
    case Work(n, c) if n < 0 => throw new Exception("Negative number")
    case Work(n, c) => self reply n.isProbablePrime(c);
  }
}

Run Code Online (Sandbox Code Playgroud)

这就是我开始工作的方式:

val workers = Vector.fill(nrOfWorkers)(actorOf[AkkaWorkerFT].start());
val router = Routing.loadBalancerActor(SmallestMailboxFirstIterator(workers)).start()

Run Code Online (Sandbox Code Playgroud)

这就是我关闭所有东西的方式:

futures.foreach( _.await )
router ! Broadcast(PoisonPill)
router ! PoisonPill

Run Code Online (Sandbox Code Playgroud)

现在发生的事情是,如果我发送工具消息,其中n> 0(没有抛出异常),一切正常,应用程序正常关闭.但是,只要我发送一条导致异常的消息,应用程序就不会终止,因为仍有一个actor正在运行,但我无法弄清楚它来自哪里.

如果它有帮助,这是有问题的线程的堆栈:

  Thread [akka:event-driven:dispatcher:event:handler-6] (Suspended) 
    Unsafe.park(boolean, long) line: not available [native method]  
    LockSupport.park(Object) line: 158  
    AbstractQueuedSynchronizer$ConditionObject.await() line: 1987   
    LinkedBlockingQueue<E>.take() line: 399 
    ThreadPoolExecutor.getTask() line: 947  
    ThreadPoolExecutor$Worker.run() line: 907   
    MonitorableThread(Thread).run() line: …

Run Code Online (Sandbox Code Playgroud)

routing scala fault-tolerance actor akka

fre*_*oma

lucky-day

73
推荐指数

1
解决办法

7985
查看次数

为什么不建议在空间/辐射环境中使用C ++模板？

通过阅读此问题，例如，我理解了为什么在空间或核电站等辐射较高的环境中不建议动态分配或例外的原因。关于模板，我不知道为什么。你能给我解释一下吗？

考虑到这个答案，它说使用起来很安全。

注意：我不是在谈论复杂的标准库内容，而是针对性的自定义模板。

c++ embedded templates fault-tolerance

Gui*_*e D

2019 06-19

64
推荐指数

2
解决办法

7950
查看次数

Erlang/OTP消息是否可靠？邮件可以重复吗？

长版:

我是erlang的新手,并考虑将其用于可扩展的架构.我发现该平台的许多支持者都在宣传其可靠性和容错性.

但是,我很难准确理解在这个消息在瞬态内存中排队的系统中如何实现容错.我知道可以安排一个主管层级来重新生成已故的流程,但我一直无法找到很多关于重生工作对正在进行的工作的影响的讨论.在飞行中的消息和在垂死节点上丢失的部分完成的工作的工件会发生什么？

当消费者进程死亡时,所有生成器是否会自动重新传输未被确认的消息？如果没有,这怎么可以被认为是容错的？如果是这样的话,是什么阻止了被处理的消息 - 但不是很确认 - 被重新传输,因此不适当地重新处理？

(我认识到这些问题不是erlang独有的;在任何分布式处理系统中都会出现类似的问题.但是erlang爱好者似乎声称平台让这一切变得"简单"......？)

假设重新传输消息,我可以很容易地想象出一个复杂的消息链的下游影响在发生故障后可能变得非常混乱的情况.如果没有某种繁重的分布式事务系统,我不明白如何在不解决每个进程中的重复的情况下保持一致性和正确性.我的应用程序代码是否必须始终强制执行约束以防止事务被多次执行？

精简版:

分布式erlang进程是否受重复消息的影响？如果是这样,是重复保护(即,幂等)应用程序的责任,还是erlang/OTP以某种方式帮助我们？

erlang messaging fault-tolerance transactions reliability

jos*_*hng

2014 01-08

36
推荐指数

2
解决办法

6795
查看次数

Scala + Akka:如何开发多机高可用性集群

我们正在Scala + Akka开发一个服务器系统,用于为Android,iPhone和Second Life的客户提供服务.此服务器的某些部分需要高度可用,在多台计算机上运行.如果其中一台服务器死亡(例如硬件故障),系统需要继续运行.我想我希望客户有一个他们将尝试连接的机器列表,类似于Cassandra的工作方式.

到目前为止,与阿卡我见过的多节点例子似乎对身边的可扩展性的理念为中心,而不是高可用性(至少在硬件方面).多节点示例似乎始终存在单点故障.比如有负载均衡,但如果我需要重新启动具有负载均衡的机器之一,我的系统会遭受一些停机时间.

是否有任何示例显示Akka的这种类型的硬件容错？或者,您是否有任何关于实现这一目标的好方法的想法？

到目前为止,我能够提出的最佳答案是研究Erlang OTP文档,冥想它们,并试图找出如何使用Akka中提供的构建块将我的系统放在一起.

但是,如果有关于如何在多台机器之间共享状态的资源,示例或想法,如果其中一台机器停机运行,我肯定会欣赏它们,因为我担心我可能会重新发明这里的轮子.也许有一个多节点STM容器可以自动保持多个节点之间的共享状态同步？或者这可能很容易使文档没有显示如何做到的例子,或者我在研究和实验中还不够彻底.任何想法或想法将不胜感激.

scala fault-tolerance high-availability akka

Uno*_*oti

2010 09-12

26
推荐指数

1
解决办法

8071
查看次数