我正在监视服务器上的 TCP 堆栈,希望能够推断出盒子上的应用程序存在的问题。
我的第一个倾向是测量所有报告状态(LISTEN、ESTABLISHED、FIN_WAIT2、TIME_WAIT 等)中的套接字数量并检测一些异常情况。
一位队友建议“lsof”将是一个更好的工具来查看 TCP 堆栈处于什么状态。
服务器故障人群的任何偏好或经验提示?
我有几种情况,我需要在发生故障(服务器挂起或崩溃)时将应用程序从一台服务器迁移到另一台服务器。
在solaris 上,我们使用VCS (Veritas Cluster Server) 执行此操作。Linux 有哪些可用的选项?
请说明设置/维护的努力程度或每个人的成本(如果有的话)。
-- 添加了更多详细信息 --
给出复杂程度的概念:
这是一个数据收集或计算节点,而不是一个数据库,所以更简单的解决方案可以工作。
——更多细节(抱歉)——
共享存储不是一种选择,但不需要太多状态(如果有)从一台服务器迁移到另一台服务器。我们通过 rsync 保持两台服务器同步。
非常感谢您到目前为止的所有帖子。