我有一个 Linux 集群,其中的节点具有来自中央服务器的 NFS 挂载点(实际上这些节点是无盘的,并且通过 PXE 启动)。在节点上的 NFS 安装点上进行一些活动后,NFS 似乎会急剧减慢,例如 ssh 登录需要几分钟,依赖于 nfs 共享上某些文件的程序需要几分钟才能启动,等等。
重新启动服务器上的 nfs 服务和/或重新启动有问题的节点可以在短时间内解决问题,但它总是很快就会再次出现。(两者都做似乎会有帮助更长一些)
服务器和节点运行在 CentOS 7.4 上,Linux 内核为 3.10.0-693.el7.x86_64 x86_64,并使用 NFSv4。存储由 4 个 HDD 组成,捆绑为 RAID10 (/dev/sda)。服务器和节点之间的网络连接均为 1GBit/s,到目前为止没有证据表明存在丢包情况。
NFS 反应非常慢(取决于之前的活动)的原因可能是什么?
当文件系统反应缓慢时,节点上 nfsstat 的缩短输出给出:
客户端 rpc 统计:
来电 | 重传| authrefrsh
44154157 | 0 | 44154258客户端 nfs v4:
空 | 阅读 | 写| 提交 | 打开| 开放会议
0 0% | 58125 0% | 422038 1% | 6846 0% | 139899 0% | 0 0%打开_noat | …