我想知道 VPS 是否是每 3-7 天在晚上 03:00 - 04:00 时间(内核错误或其他)发生的崩溃的根本原因,或者它是一个节点托管虚拟服务器(后端问题)。
详细信息:带有 CentOS 7 的基于 KVM 的 VPS,由 VPS 提供商托管的 xfs,该提供商拥有后端和存储后端基础架构。
通常它以以下方式发生,运行kthreadd过程立即变为D-status(即不间断睡眠),然后我们得到如下消息:blocked for more than 120 seconds.和高LA:
May 21 03:08:01 vps root: root 2 0.0 0.0 0 0 ? S May18 0:00 [kthreadd]
May 21 03:10:01 vps root: root 2 0.0 0.0 0 0 ? S May18 0:00 [kthreadd]
May 21 03:12:01 vps root: root 2 0.0 0.0 0 0 ? S May18 0:00 [kthreadd]
May …
BSOD dmp 文件是否包含任何私人信息(密钥、密码等)?它们可以在没有任何脆弱性风险的情况下共享吗?
每隔几天我的服务器就会突然崩溃,我必须在数据中心请求硬件重置以使其重新运行。
今天我回到我的外壳,看到服务器已经死了,“top”在它上面运行,并在崩溃前看到下面的“top”。
我打开 /var/log/messages 并滚动到重新启动时间,什么也没看到,在硬重新启动之前没有错误。(我检查了 /etc/syslog.conf 并看到 "*.info;mail.none;authpriv.none;cron.none /var/log/messages" ,这还不足以记录所有问题吗?)
通常当我查看顶部时,swap 永远不会像这样用完!我也不知道为什么 mysqld 的 cpu 为 323%(服务器只运行 drupal,它从不慢或超载)。求解器是我的应用程序。我不知道“sh”在做什么,“dovecot”在做什么。
上个月让我发疯,请帮助我解开这个谜并停止我的停机时间。
top - 01:10:06 up 6 days, 5 min, 3 users, load average: 34.87, 18.68, 9.03
Tasks: 500 total, 19 running, 481 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 96.6%sy, 0.0%ni, 1.7%id, 1.8%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 8165600k total, 8139764k used, 25836k free, 428k buffers
Swap: 2104496k total, 2104496k used, 0k free, 8236k cached
PID USER PR NI VIRT RES SHR S …Run Code Online (Sandbox Code Playgroud) 我的网络中有一个 Ubuntu 盒子崩溃了,所有连接到连接 Ubuntu 系统的交换机的系统都开始出现问题。我从网络中删除了该系统,因为这是我在网络中所做的最后一次更改,一切都很好。因此,为了确认这一点,我再次将系统连接回网络,并且发生了相同的网络中断。
当我检查链接时,一切都很好。当我重新启动有问题的系统并再次连接回网络交换机时,一切都开始工作。
我认为可能是 Ubuntu 系统崩溃导致了这次中断。
内核崩溃是否有可能导致网络问题?
我的文件服务器刚刚崩溃,我似乎无法弄清楚原因。也许我很天真,但是当这些事情发生时,我通常可以查看我的系统、应用程序或安全事件查看器日志并找到罪魁祸首 - 但这次没有运气。
当我不在办公室时,我收到了 Icinga 通知,指出我服务器上的 E:\ 驱动器警告说没有该驱动器的可用信息。
我登录到服务器看到 E:\ 驱动器在那里,但没有像往常一样位于它下面的“存储图”,单击它挂起操作系统。然后我尝试重新启动服务器并继续挂起。我发出了一个stop-computer server -Force命令,看起来它开始工作了,但是屏幕挂了,上面写着“请等待系统事件通知服务”。我不得不硬关闭服务器,这从来都不是一件好事。
我的问题是,如果事件查看器中没有诊断信息,是否可以在事件发生后的任何地方显示导致崩溃的原因?我从来没有像这种方式那样让服务器锁定我,所以我想知道根本问题是什么。
我想我的网卡有问题,所以我想将它置于沉重但受控的负载下,看看它是否以及何时死亡。
我怎样才能产生这样的负载?
NIC 位于 Hyper-V 主机中,其上运行 Windows 和 Linux 来宾,因此适用于任一平台的工具或方法都很好。
我正在运行一个 Amazon AWS Micro Linux 实例,它在几天前的一些“轻度”使用过程中崩溃了。我正在运行一个将照片上传到服务器的应用程序。我们可能有 10 位用户在 1 小时内上传多张照片。
在某个时刻,服务器停止响应。我登录AWS控制台,发现“实例可达性检查”失败。我重新启动了服务器,重新启动了 PHP 和 MySQL,然后必须修复一些已损坏的 MySQL 表。
我打开了监控工具,CPU 使用率表明我们的 CPU 使用率达到了 28% - 在阅读了更多有关微实例的文档后,我认为我们没有达到 CPU 使用率的上限,但我可能是错的。
我不知道足够理解日志的含义。我发现了我认为是问题发生时服务器上的日志,我希望有人可以帮助我解释发生了什么:
7月23日00:19:07 ip-10-117-66-219内核:[19699669.157082] httpd调用了oom-killer:gfp_mask = 0x201da,order = 0,oom_adj = 0
7 月 23 日 00:19:07 ip-10-117-66-219 内核:[19699669.157100] httpd cpuset=/ mems_allowed=0
7 月 23 日 00:19:07 ip-10-117-66-219 内核:[19699669.157108] Pid:1824,通讯:httpd 未受污染 2.6.35.14-97.44.amzn1.x86_64 #1
7 月 23 日 00:19:07 ip-10-117-66-219 内核:[19699669.157117] 调用跟踪:
7 月 23 日 00:19:07 ip-10-117-66-219 内核: [19699669.157131] [] ?cpuset_print_task_mems_allowed+0x98/0xa0
7月23日00:19:07 ip-10-117-66-219内核:[19699669.157143] [] dump_header.clone.1+0x77/0x1a0
7 月 …
amazon-ec2 ×1
bsod ×1
centos ×1
centos7 ×1
diagnostic ×1
hardware ×1
linux ×1
networking ×1
nic ×1
windows ×1