我在 NFS 挂载上运行了一些巨大的文件传输。挂载点所在的服务器不小心重启了,现在启动这些大传输的服务器似乎被它们卡住了。
如果我运行top
,我会看到以下内容:
我尝试的第一件事是kill
使用 -1 -2 -9 和 -15 标志以及上面显示的每个进程 ID 依次运行。这允许我继续,但没有终止进程。我尝试的下一件事是重新启动服务器,但既没有reboot
也没有shutdown -r now
工作。当我运行时shutdown -r now
,发送了标准广播消息,但服务器没有重新启动。我通过查看服务器正常运行时间(25 天)确认了这一点。
所以现在我有点卡住了。我以 root 身份运行这些命令。
编辑:这是另一个有趣的花絮:
最重要的是,我没有看到任何其他进程正在使用超过百分之一的内存或超过 5% 的 CPU。
编辑2:输出 /var/log/messages
我正在研究用于科学数据分析的服务器。它运行 RHEL 6.4 它有将近 200GB 的 RAM。对于通过 SSH 的用户来说,它的运行速度非常缓慢,经过一番摸索之后,我很快注意到 RAM 使用率非常高。奇怪的是,即使处于空闲状态,它仍然使用大量 RAM:
我还查看了通过htop
,我看不到任何正在运行的进程使用了超过 0.1% 的 RAM。所以我想知道发生了什么?现在,唯一运行的用户启动进程是两个 NFS 挂载共享之间的 rsync。
我尝试重新启动服务器,几分钟后它的响应速度更快,但随后内存使用量再次飙升。
有什么办法可以查明为什么内存使用率如此之高?