我已经修复了服务器上的许多问题,这些问题表明 Nagios 上有错误,但由于某种原因,即使问题已修复,警报仍然存在。所以我想知道,有没有办法强制检查所有主机?
我需要在我们的 Zabbix 系统中实现一些 Web 检查,这需要使用libcurl(curl) 选项编译 Zabbix ,但我不知道如何检查它是否使用此选项编译,是否有任何命令或文件会帮助我找到答案吗?
我有一个监控许多服务器的 Nagios 服务器。有一个内部编码的仪表板,它使用被动检查将监控数据发送到 Nagios 服务器。每当出现问题时,NOC 团队都会收到大量电子邮件通知。
我的目标是:
当出现问题时,即使仪表板向 Nagios 发送了 100 封通知电子邮件,我也希望 Nagios 将这些通知聚合为一个通知。然后我希望 Nagios 在问题解决后再发送一个通知。它是如何完成的?
在我公司的基础设施中,有 5 个数据中心位于偏远地区。
在每个远程位置,有一对服务器保存 DNS 和 NTP 服务,并在该位置的每台服务器上进行配置,以从这两个服务器获取 DNS 和 NTP 调用。
所有服务器都是 CentOS 6.x 机器。
有动机在这两个服务器之间创建 DNS 和 NTP 冗余。
涵盖了 DNS 部分,我只有 NTP 有问题。
确保当一个 NTP 服务器出现故障时,第二个/其余服务器将继续为客户端提供服务的正确方法是什么?
我已经谷歌搜索并找到了一个RedHat 解决方案来将其中一台服务器设置为主服务器(通过在客户端中将其配置为“true”),但万一“true”(主)服务器出现故障......然后它失败了,客户端不会从中获取 NTP 更新,因此它不是纯粹的冗余解决方案。
我想知道是否有人有任何配置此类解决方案的经验?
编辑#1:
为了测试 MadHatter 的答案,我做了以下工作:
- 我已经停止了服务器上的 NTPd,该服务器在每个 NTP 客户端上都配置为“首选”。
- 我正在等待 NTP 客户端停止针对此服务器工作并开始针对其合作伙伴 NTPd 服务器工作。
- 我正在
ntpq -p客户端上运行以查看更改。这是输出ntpq -p:
[root@ams2proxy10 ~]# ntpq -p
remote refid st t when poll reach delay offset jitter
==============================================================================
10.X.X.38 .INIT. 16 u - 128 0 0.000 0.000 …Run Code Online (Sandbox Code Playgroud) 我编写了一个 CloudFormation 模板,它创建了一个完整的环境,其中包括 VPC、HostedZone、子网、自动缩放组等的创建...
创建的 ASG 成员服务器在第一次启动时运行用户数据脚本,与许多其他任务一起,每个实例也在新创建的 HostedZone 中注册自己。
一切都很完美。
问题是,当我将堆栈标记为删除时,它会失败 (DELETE_FAILED),原因是 CloudFormation 无法删除 HostedZone。
即使您尝试手动删除包含多于必需记录(NS 记录)的托管区域,您也会收到一条错误消息,提示您需要先删除该区域中的所有非必需记录,然后才能删除该区域。
CloudFormation 中也会发生这种情况,这就是“删除失败”的原因。
CloudFormation 中的错误如下所示:
The specified hosted zone contains non-required resource record sets and so cannot be deleted.
Run Code Online (Sandbox Code Playgroud)
我想知道是否有解决方法可以避免收到“删除失败”消息并且堆栈将被正确删除?
我需要运行 100 个用户名的列表并清除他们的 Pager 字段,可以使用 Power Shell 完成吗?包含用户名的文件名输入如下所示:itaig haruth geloos fested
我接到了一项任务,要了解为什么 2 个运行 apache 2.2.3 的 CentOS Web 服务器在特定情况下会遇到非常高的负载。我检查的第一件事是/var/log/messages但后来我意识到 rsyslog 由于某种原因被关闭,所以我启动它并使用chkconfig. 然后,我想检查 apache 错误和访问日志,所以我浏览到/var/log/httpd但发现该文件夹为空。我检查/etc/httpd/conf/httpd.conf并看到了这些行:
ErrorLog logs/error_log
CustomLog logs/access_log combined
Run Code Online (Sandbox Code Playgroud)
据我所知,它指的是/var/log/httpd/但如前所述文件夹为空。在写这个问题时,我在服务器上寻找 httpd 版本并运行httpd -v,这就是我得到的响应:
[root@domU-IP httpd]# httpd -v
Server version: Apache/2.2.3
Server built: May 4 2011 06:51:15
Unable to open logs
Run Code Online (Sandbox Code Playgroud)
我的问题是:
/var/log/httpd?当前权限为:drwx------ 2 root root提前致谢
我想配置iptables为仅允许端口 22 上的 SSH 来自192.168.*.*来自其他所有 IP 的 IP 和阻止。
从今天中午开始,每当我输入 exit 或使用 Control-D 关闭 putty 窗口时,就有许多 Linux CentOS 服务器将暂停。以前有人遇到过这种奇怪的行为吗?我检查了服务器上的别名列表,没有关于暂停命令的别名。服务器上线后,我检查了历史记录并在那里看到了“注销”命令,但没有与暂停相关的内容。起初,我认为它只发生在我的电脑上,但后来我意识到它发生在每个类型退出、注销或控制 + d 的人身上。其中 2 个服务器是我们的主要 iptables 防火墙,因此非常重要,非常感谢您的帮助。
看起来像这样,它只发生在具有活动 IPTables 的服务器上:
[root@srv1 bin]# ssh srv2
root@srv2's password:
Last login: Sun Nov 11 17:19:41 2012 from 192.168.12.98
[root@srv2 ~]# vim /etc/crontab
[root@srv2 ~]# exit
logout
Broadcast message from root (pts/1) (Tue Nov 13 10:44:04 2012):
The system is going down for system halt NOW!
Connection to srv2 closed.
[root@srv1 bin]#
Run Code Online (Sandbox Code Playgroud)
在我的故障排除步骤中,我遇到了命令 strace,因此我为其中一个有问题的服务器打开了两个 bash 窗口,并使用了 strace -p PID_of_bash。当我在第一个 shell 中输入 exit 时它确实停止了,附加的是 strace …
我已经完成了rpm -qa > file,现在我想将文件复制到另一台服务器并运行它并在新服务器上安装所有这些包。我做了这样的事情:for pkg incat 文件; do yum -y install $pkg; done并且它有效但需要太多时间,你知道实现这个目标的更短的方法吗?我没有安装自动配置管理器软件。如果我知道如何遍历文件并只用一个空格切换换行符,我可以简单地运行它:yum install -y pkg1 pkg2 pkg3但我不知道如何操作文件上的数据,所以它会像这样显示。(有空格而不是换行符)
centos6 ×3
centos ×2
iptables ×2
linux ×2
nagios ×2
apache-2.2 ×1
httpd ×1
log-files ×1
monitoring ×1
ntp ×1
powershell ×1
redundancy ×1
ssh ×1
yum ×1
zabbix ×1