分析分布式系统

red*_*bit 5 performance profiling distributed hpc distributed-computing

我想知道在分布式系统中追踪性能瓶颈的可能方法。我知道X-Trace等工具及其后代(例如Dapper),但我对方法论而不是特定工具更感兴趣。

换句话说,给定一个没有任何明显瓶颈的分布式系统,你如何研究和提高它的性能?

Mik*_*vey 3

我使用的方法有优点也有缺点。优点是它有效 - 它可以发现问题,当这些问题得到解决时,会带来良好的快速性能。缺点是需要大量的手工工作。

我什至写了一本书,并包含了该方法。这项工作是收集带有时间戳的事件日志并将它们合并到一个公共时间线中。然后仔细检查它,通过异步代理网络跟踪相关消息的流向。您正在寻找的是不必要的消息周期,或者不一定会发生的延迟。例如,在查看此图片时,由于任务“将状态发布到数据库”,消息的接收被延迟。当理解了这一点后,发布实际上可以在单独的线程上完成。

在此输入图像描述