我们有一个带有 8 个 IQ 12000x 节点的 Isilon 集群,它通过几个 NFS 共享为少数 Linux 和 Solaris 客户端导出存储。
有一个 Linux 系统安装了这些 NFS 文件系统之一。从 Linux 系统到这个文件系统的 I/O 是中等繁重的。每 3-4 周(它不是在任何可辨别的时间表上,有时比这更频繁/更不频繁),我们注意到此 NFS 挂载上的所有活动都停止了(进程挂起,好像网络停止工作,所以进程是陷入不间断的睡眠) - 30 分钟后,共享恢复并且一切继续正常工作。受影响机器的内核日志如下:
Dec 3 10:07:29 redacted kernel: [8710020.871993] nfs: server nfs-redacted not responding, still trying
Dec 3 10:37:17 redacted kernel: [8711805.966130] nfs: server nfs-redacted OK
Run Code Online (Sandbox Code Playgroud)
相关/etc/fstab
线路:
nfs-redacted:/ifs/nfs/export_data/shared/...redacted... /data nfs defaults 0 0
Run Code Online (Sandbox Code Playgroud)
我已经检查过是否有任何计划进程(例如 cron 作业、Isilon 相关功能(例如快照)等)可能导致这些挂断,但我似乎找不到任何东西。我也不知道会导致这种情况的任何网络相关问题或维护。根据内核日志,所有锁定几乎持续了 30 分钟。
也许有人有一些我可以尝试的建议?(我考虑了软安装以避免与访问文件系统挂起的进程相关的问题;但是我担心可能导致的损坏,无论如何它都不会真正解决潜在的问题)。
归档时间: |
|
查看次数: |
2534 次 |
最近记录: |