Docker Containers 和 Swarm 的有效监控解决方案？

Yur*_*uri 5 monitoring docker coreos docker-swarm devops

我正在寻找 Web 应用程序的监控解决方案，部署为 Docker 容器群，分布在 7-10 个虚拟机中。高级要求是：

性能仪表板的可配置 Web 和 REST 接口
VM 级别的一般性能指标（CPU/内存/IO）
当容器和/或虚拟机脱机/重启时发出警报
可以在需要时深入了解容器流程活动
主机操作系统是 CoreOS 和 Ubuntu

这里有任何建议/最佳实践吗？

注意：外部 Kibana 安装用于从部署在 VM 上的 Logstash 代理收集应用程序日志。

看一下Axibase 时间序列数据库/Google Cadvisor/collectd 堆栈。

披露：我在开发 ATSD 的公司工作。

每个虚拟机部署 1 个 Cadvisor 容器来收集 Docker 容器统计信息。Cadvisor 前端允许您查看顶级容器进程。
部署 1 个 ATSD 容器以从多个 Cadvisor 实例获取数据。
在每个虚拟机上部署collectd守护进程来收集主机统计信息，配置collectd守护进程以使用write_atsd插件将数据流式传输到ATSD中。

仪表板：

主持人：
容器：

API / SQL：

https://github.com/axibase/atsd/tree/master/api#api-categories

警报：

ATSD 带有一个内置的规则引擎。您可以配置规则来监视容器何时停止收集数据并触发电子邮件或系统命令。

归档时间：	10 年，3 月前
查看次数：	2023 次
最近记录：	7 年，5 月前

当我使用Alpine作为基本图像时,如何添加用户？ 63

Docker中的import和load有什么区别？ 56

自动docker登录bash脚本 25

Kubernetes Liveness Probe Logging 8

Heroku dyno如何在掩护下睡觉和醒来？ 8

如何模拟 Docker 容器失去互联网连接？ 8

动态 Docker 基础镜像 7

在Docker中添加ssh密钥 6

Docker Aspnet core 设置物理目录路径 6

为我的用例比较HA群集平台 5

如何修改现有的,未删除的提交？ 7669

如何确定最初克隆本地Git存储库的URL？ 3782

在字典中添加新密钥？ 2427

PHP:从数组中删除元素 2362

JavaScript中的变量范围是什么？ 1952

如何从git repo中删除文件？ 1795

如何检查字符串"StartsWith"是否是另一个字符串？ 1660

UnicodeEncodeError:'ascii'编解码器无法对位置20中的字符u'\ xa0'进行编码:序数不在范围内(128) 1222

退出申请不赞成？ 1131

如何在JavaScript中创建二维数组？ 1081