
(抱歉图片中出现非英文字符。每一列都是线程/CPU/平均CPU)
当我在 Window 8.1 上的资源监视器中打开 CPU 选项卡时,我看到上述值。CPU和普通CPU有什么区别?
起初,我认为平均 CPU 意味着每个核心的 avaerag 使用率,但我有 4 个核心,所以该值应该是 CPU=4*avg。CPU里面没有。
请告诉我CPU和平均CPU值的含义。
我已经使用 monit 来监视和重新启动 Apache 和 MySQL 几个月了,一切都工作正常,直到今天,当服务器上的某些内容导致内存利用率超过 90% 时,MySQL 停止并 monit 然后尝试不断重新启动,但是有内存不足,无法重新启动。
完整的服务器重新启动对所有内容进行了排序,因此现在再次正常运行。
我的问题是,例如,当超过 90% 时,我可以让 monit 监控服务器 RAM 利用率并释放 RAM 或重新启动服务器等吗?
我正在使用collectd的自定义配置,由于某种原因,当我尝试运行该服务时,我不断遇到失败。最初,我将所有内容都放在一个大文件中,但为了更轻松地更改配置,我想将各种插件和组件的设置分开。Collectd 有一个Include选项可以做到这一点。它似乎有效,但是当collectd尝试获取程序的外部部分时,我收到以下错误:
Parse error in file `/etc/collectd/collectd.conf.d/http.conf', line 1100 near `': syntax error, unexpected $end, expecting EOL
Run Code Online (Sandbox Code Playgroud)
如果我使用 vim 直接将粘贴复制到服务器中,它就会起作用。但是,当软件包安装时,它不会。我知道这些类型的错误可能来自不匹配的括号或引号或其他东西,但他在这些文件中不是问题。还有其他什么可能导致这样的错误吗?
我有需要监视的流复制。所以Zabbix有一个特殊的用户。我不想使用 pg_mongz 并决定将我自己的查询设置为 pg_catalog 模式的视图 pg_stat_replication 以获取复制状态。
当我使用查询时:
select *
from pg_stat_replication;
Run Code Online (Sandbox Code Playgroud)
它返回管理员的复制状态记录。但是当我以监控用户身份登录时,它仅返回:
pid, usesysid, usename, application_name
Run Code Online (Sandbox Code Playgroud)
所以client_addr、client_hostname、client_port、backend_start、state、sent_location、write_location等参数为空。
首先,我向用户授予了对架构和表的权限:
grant usage on schema pg_catalog to usrmonitor;
grant select on all tables in schema pg_catalog to usrmonitor;
Run Code Online (Sandbox Code Playgroud)
但这没有帮助。当我查看视图时,我发现查询使用函数并授予执行权限:
grant execute on function pg_stat_get_wal_senders() to usrmonitor;
grant execute on function pg_stat_get_activity(integer) to usrmonitor;
Run Code Online (Sandbox Code Playgroud)
但选择查询仍然返回空列。可能是什么问题?
将 wmi_exporter 或 scollector_exporter 与 Prometheus 一起使用时,我发现很难获得准确的 CPU 使用情况。这是我正在使用的指标以及我用于 scollector 的查询:
os_cpu with returns: 1.54432653e+07
Run Code Online (Sandbox Code Playgroud)
我用费率进行查询:
rate(os_cpu{exported_instance="myHost"}[30s])
Run Code Online (Sandbox Code Playgroud)
os_cpu 返回总体 CPU 使用情况,即所有核心,并将其与 Windows 中的任务管理器进行比较,它不会累加,因为显示的最大值为 100%。CPU 使用率不可能达到 300%。
我该如何处理查询才能获得更准确的测量结果?
我有詹金斯https://jenkins.example.com。插件与 2 环境一起工作。变量:
PROMETHEUS_ENDPOINT Configures rest endpoint. Defaults to "prometheus"
PROMETHEUS_NAMESPACE Configure prometheus metric namespace. Defaults to "default"
我需要将指标发送至https://jenkins.example.com/metrics
什么PROMETHEUS_ENDPOINT和PROMETHEUS_NAMESPACE价值观?
我们在生产环境中使用了很多 grpc 通道。有些通道打开然后关闭,还有许多通道持续打开。
最近,在一个开发项目之后,我们意识到我们让一些通道保持开放状态,而不是关闭它们,直到它成为一个真正需要解决的麻烦时我们才意识到这一点。
我们希望对连接进行一些监控。
我找到了https://github.com/grpc/grpc-java/blob/master/documentation/monitoring-service-tutorial.md但它说
注意:监控服务需要instrumentation-java库实现,该库仍在开发中。在 Instrumentation-java 实现发布之前,本教程中的步骤将不起作用。
我正在为我们的 grpc 寻找一些简单的监控。比如通道开放、吞吐量、错误计数等基本的东西。
只是想知道您的团队在生产中使用什么来监控 grpc java?
我正在努力计算服务器列表的百分比。
我所拥有的是:
icinga2.$server.services.Memory_Load.memory-windows.perfdata.memory.value
Run Code Online (Sandbox Code Playgroud)
和
icinga2.$server.services.Memory_Load.memory-windows.perfdata.memory.max
Run Code Online (Sandbox Code Playgroud)
我不知道如何计算这些值的百分比。
有人可以帮我吗?
我试图愚弄reduceSeries,mapSeries但asPercent总是从中得到一个查询错误。
我尝试过的例子:
reduceSeries(mapSeries(icinga2.$server.services.Memory_Load.memory-windows.perfdata.memory.*,1),"asPercent",3,"value","max")
Run Code Online (Sandbox Code Playgroud)
提前致谢
是否有可能复制普罗米修斯?
例如,有两个 Prometheus 实例。第一个被关闭,第二个接管他的职责。是否可以?我知道有Federation,但在这种情况下,第二个仅在第一个工作时才采样。我不希望第二个实例与第一个实例相同,而是一种副本。
我有一条类似“服务正在运行”的消息,我无法更改,因此在日志 Grok Parser 中我想将其替换为“INFO |” 服务正在运行'或手动或以某种方式手动分配,例如%{level=INFO}。请好心指教。
monitoring ×10
prometheus ×3
grafana ×2
java ×2
metrics ×2
collectd ×1
cpu-usage ×1
datadog ×1
graphite ×1
grpc ×1
grpc-java ×1
jenkins ×1
linux ×1
logging ×1
memory ×1
monit ×1
performance ×1
postgresql ×1
replication ×1
resources ×1
restart ×1