然而,也许是一个奇怪的绿色问题
那么Nagios或Ganglia可以做到的其他事情不能做到吗?
在监控方面,一般都是警报.
我正在为我学校的电脑俱乐部寻找一个通用的解决方案,在我看来它就像比较诺顿和先锋.两者都是防病毒软件但是有没有特定的好处?或者我现在问一个非常愚蠢的问题?
谢谢.
我正在监控超过300台服务器,因为我正在使用Ganglia.其中RRD
用作数据库来收集和存储与每个服务器的资源相关的数据.我想有2年或更长的历史,所以阅读这篇文章,我认为我的RRA
配置应该是:
RRAs "RRA:AVERAGE:0.5:1:17520"
Run Code Online (Sandbox Code Playgroud)
17520 =(365天[年] x 2)*24 [小时]
这是Ganglia默认配置,今天正在运行:
#
# Round-Robin Archives
# You can specify custom Round-Robin archives here (defaults are listed below)
#
# RRAs "RRA:AVERAGE:0.5:1:244" "RRA:AVERAGE:0.5:24:244" "RRA:AVERAGE:0.5:168:244" "RRA:AVERAGE:0.5:672:244" \
# "RRA:AVERAGE:0.5:5760:374"
#
Run Code Online (Sandbox Code Playgroud)
这是我的思维方式还是我在这里遗漏了什么?
我用rpm文件设置了神经节,
OS: centOS 6.3
Server; httpd
Run Code Online (Sandbox Code Playgroud)
gmond和gmetad正在运行,当我在浏览器中加载它时出现"禁止错误"
Forbidden
You don't have permission to access /ganglia on this server.
Run Code Online (Sandbox Code Playgroud)
我还可以在/ etc/httpd/logs/error_log中看到eroor
[Wed May 07 10:50:42 2014] [error] [client 118.102.239.85] client denied by server configuration: /usr/share/ganglia
Run Code Online (Sandbox Code Playgroud)
请帮我解决这个问题
httpd.conf文件内容:
#
# This is the main Apache server configuration file. It contains the
# configuration directives that give the server its instructions.
# See <URL:http://httpd.apache.org/docs/2.2/> for detailed information.
# In particular, see
# <URL:http://httpd.apache.org/docs/2.2/mod/directives.html>
# for a discussion of each configuration directive.
#
# …
Run Code Online (Sandbox Code Playgroud) 我们有一个拥有大约20个节点的集群.此群集在许多用户和作业之间共享.因此,我很难观察我的工作,以便获得一些指标,如CPU使用率,I/O,网络,内存等......
如何获得工作级别的指标.
PS:群集已经安装了Ganglia但不确定如何让它在作业级别上运行.我想要做的是监视集群使用的资源,仅执行我的工作.
如何在自定义图表中显示平均值,而不是总值?
以前我通过创建自定义.php文件生成集群摘要图表已经成功,如下所述:
http://sourceforge.net/apps/trac/ganglia/wiki/Custom_graphs
但是,到目前为止,我想要显示给定指标的每秒总动作数.但现在,我有一些时序数据,我想显示所有集群节点的平均值(平均值).这是怎么做到的?在我当前的实现中,生成的图表显示了所有节点的总时间值,这没有用.
这是.php:
<?php
/* Pass in by reference! */
function graph_jmx_times_report ( &$rrdtool_graph ) {
global $context,
$hostname,
$graph_var,
$range,
$rrd_dir,
$size,
$strip_domainname;
if ($strip_domainname) {
$hostname = strip_domainname($hostname);
}
$jmx = $graph_var;
$title = $jmx.' Processing Time';
if ($context != 'host') {
$rrdtool_graph['title'] = $title;
} else {
$rrdtool_graph['title'] = "$hostname $title last $range";
}
$rrdtool_graph['lower-limit'] = '0';
$rrdtool_graph['vertical-label'] = 'milliseconds';
$rrdtool_graph['extras'] = '--rigid --base 1024';
$rrdtool_graph['height'] += ($size == 'medium') ? 89 : 0;
$series …
Run Code Online (Sandbox Code Playgroud) 神经节中的“已使用内存”到底是什么(相对于“缓存内存”)?“使用的内存”是指物理内存、虚拟内存、常驻内存还是共享内存?
是否包括代码使用的内存、数据以及任务之间的共享内存?
“内存缓存”怎么样?谢谢。
我ganglia
用于监听。ganglia
将其数据存储为rrd
文件。
它是rrd
在上存储指标数据的文件gmetad
。通常,默认路径是/var/lib/ganglia/rrds/<cluster-name>/<node-name>/
每个指标存储在单个rrd
文件(如)中的位置bytes_in.rrd
。
有什么办法可以使用这些rrd
数据influxdb
吗?
我在EC2中运行神经节,报告效果很好.我正在运行gmetad来监控来自管理报告实例的数据库集群,该实例是我们所有系统的集中式仪表板.我不希望将此实例包含在监视中.在admin gmond.conf中,我设置了:
mute = yes
Run Code Online (Sandbox Code Playgroud)
但这只会让网络前端显示主机已经死亡.在admin gmetad.conf中,我将data_source设置为:
data_source "cluster" ec2-X-X-X-X.compute-1.amazonaws.com
Run Code Online (Sandbox Code Playgroud)
(ec2-XXXX.compute-1.amazonaws.com是管理实例的ec2主机名)
我认为设置mute=yes
会将它从报告和gstat中删除,但两者仍然显示管理主机(localhost)已死.
有没有办法做到这一点?
我使用Ganglia + RRDTool
了monitoring a web farm
。很多图都是很清楚的,但是当我看到load_one metric
,我don't have Y-axis legend
。
那么,what the Y-axis means
?
谢谢。
我最近通过尝试神经节监测系统遇到了RRD.Ganglia将监控数据存储在RRD中.我只是想知道,从可扩展性的角度来看,RRD是如何工作的?如果我有可能存储大量数据怎么办?就像神经节的情况一样,如果我想存储所有的历史监测统计数据而不是仅仅存储最近使用特定TTL的数据,RRD是否足以应对这种情况?
使用RRD的人是否可以分享RRD如何扩展的经验,以及它与RDBMS甚至大表相比如何?
ganglia ×13
rrdtool ×5
database ×2
nagios ×2
rrd ×2
apache ×1
apache-spark ×1
graphite ×1
hadoop ×1
httpd.conf ×1
influxdb ×1
linux ×1
monitoring ×1
performance ×1