这台机器有大量的交换,但进程仍然偶尔会被 oom-killer 杀死。谁能解释这种行为,更重要的是如何防止它发生?
消息输出:
python invoked oom-killer: gfp_mask=0x1200d2, order=0, oomkilladj=4
Pid: 13996, comm: python Not tainted 2.6.27-gentoo-r8cluster-e1000 #9
Call Trace:
[<ffffffff8025ab6b>] oom_kill_process+0x57/0x1dc
[<ffffffff802460c7>] getnstimeofday+0x53/0xb3
[<ffffffff8025ae78>] badness+0x16a/0x1a9
[<ffffffff8025b0a9>] out_of_memory+0x1f2/0x25c
[<ffffffff8025e181>] __alloc_pages_internal+0x30f/0x3b2
[<ffffffff8026fea0>] read_swap_cache_async+0x48/0xc0
[<ffffffff8026ff6f>] swapin_readahead+0x57/0x98
[<ffffffff80266d0e>] handle_mm_fault+0x408/0x706
[<ffffffff8057da33>] do_page_fault+0x42c/0x7e7
[<ffffffff8057baf9>] error_exit+0x0/0x51
Mem-Info:
Node 0 DMA per-cpu:
CPU 0: hi: 0, btch: 1 usd: 0
CPU 1: hi: 0, btch: 1 usd: 0
CPU 2: hi: 0, btch: 1 usd: 0
CPU 3: hi: 0, btch: 1 usd: 0
Node 0 DMA32 …Run Code Online (Sandbox Code Playgroud) 有没有办法让我的用户可以终止自己卡在dr状态的作业?
qstat -f <jobid>
Run Code Online (Sandbox Code Playgroud)
作为用户,返回
job <jobid> is already in deletion
Run Code Online (Sandbox Code Playgroud)
但是当以 root 运行时,它确实被删除了
我们的计算集群有许多文件系统,有很多用户存储了很多非常大的文件。我们想监控文件系统并帮助优化他们的使用,以及扩展计划。
为此,我们需要某种方式来监控这些文件系统的使用情况。基本上我想知道有关文件的各种统计信息:
理想情况下,此信息将以汇总形式提供给任何目录,以便我们可以根据项目或用户对其进行监控。
除了自己用 Python 编写一些东西之外,我还没有找到任何能够执行这些任务的工具。有什么建议吗?
这与密码最佳实践有关,但更具体。
您是否对组织中的所有服务器使用相同的 root 密码?对于一类设备内?
我有一堆从 iSCSI LUN 运行 Xen VM 的 VM 服务器,这些服务器通过 Open-iSCSI 安装在 Dom0 主机中。这只是一个简单的单路径设置(冗余通过集群存储和虚拟 IP 位于目标端)
我正在考虑将 Open-iSCSI README 中的设置用于 iSCSI 根目录,因为它基本上是这样的:
8.2 iSCSI settings for iSCSI root
---------------------------------
When accessing the root parition directly through a iSCSI disk, the
iSCSI timers should be set so that iSCSI layer has several chances to try
to re-establish a session and so that commands are not quickly requeued to
the SCSI layer. Basically you want theopposite of when using dm-multipath.
For this setup, …Run Code Online (Sandbox Code Playgroud) 我们整个公司都是台式机上的 Mac。我们主要有 iMac 和 MacBook Pro。在过去的几年里,我们一直在使用RadMind来管理他们的系统映像,但该软件有许多缺点:
我知道大多数其他解决方案都使用 .pkg 样式的更新管理系统。我想知道的是人们在使用什么,以及您遇到了什么样的限制。特别是,添加/删除软件、软件更新、固件更新有多容易?更改系统配置文件有多容易?
我想知道这是否可能。我希望用户能够在我们的一些主机上启动屏幕,以便多路复用他们的终端登录会话。但是,我不希望他们能够分离屏幕并让它在后台运行。
这样做的原因是登录这些机器的唯一方法是通过集群作业提交系统,因此如果屏幕分离并且用户注销,返回的唯一方法是他们碰巧重新登陆下一个作业提交的相同节点。
我想将所有 ZFS ACL 从一个文件克隆到另一个文件。
使用 POSIX ACL,这可以通过管道输出getfaclto 来完成setfacl。
是否有一种简单快捷的方法可以使用 ZFS 中的 NFSv4 样式 ACL 执行此操作?我知道我可以读出 的输出,ls -lV然后将其作为 a 的一部分输入chmod,但我似乎找不到与复制 ACL 的 POSIX 方式等效的功能。
这是一个我无法诊断的问题:
我们的用户主目录由运行 Mac OS X 10.5.7 的 Apple XServe 通过 NFS 提供服务。通常,它们会导出到我们的默认办公室子网“lan”。最近我一直在构建一个新的子网,“农场”。“farm”上的计算机与“lan”上的计算机运行相同的操作系统(openSUSE 11.1 和Gentoo),并且软件版本相同。
问题是,当我的用户在“农场”上使用机器一段时间(5 分钟,有时 30 分钟,有时一整小时)时,NFS 挂载似乎挂起。尝试对ls目录或尝试访问用户主目录的任何其他内容(例如登录等)执行操作只会卡住。从“挂起”机器挂载到其他 NFS 服务器似乎按预期工作。
客户端或服务器的日志中没有任何内容表明存在任何问题。相同类型的客户端在默认的“lan”子网中工作得很好。
我已经尝试了 NFS 服务器和客户端的各种不同配置(禁用/启用 kerberos,不同的挂载选项),但似乎没有任何区别。
我强烈怀疑这两个子网之间存在一些网络级问题,可能是防火墙/路由器(OpenBSD 使用 pf 作为数据包过滤器)造成的一些问题。两组机器之间的连接相当简单:
x serve --> switch --> router --> switch --> clients
对于接下来要尝试的调试方法或可能的解决方案,我几乎一无所知。关于如何从这一点解决这个问题的任何想法?
更新:
还是没能解决这个问题。当我scrub在内部接口上禁用时,我以为我已经将其扼杀在萌芽状态,但问题再次显现出来。奇怪的是 pf 似乎还在修改一些数据包。
在农场vlan 端的示例对话:
09:17:39.165860 node001.farm.foo.com.769 > barstar.lan.foo.com.nfsd: S 2887472382:2887472382(0) win 5840 <mss 1460,sackOK,timestamp 236992843 0,nop,wscale 6> (DF)
09:17:39.166124 barstar.lan.foo.com.nfsd > node001.farm.foo.com.769: . ack 43 win 65535 <nop,nop,timestamp 316702204 236992843> (DF) …Run Code Online (Sandbox Code Playgroud) 适用于 windows、mac 和 linux 的最佳 MAC 地址更改/欺骗/编辑程序是什么?
linux ×5
mac ×2
filesystems ×1
gnu-screen ×1
gridengine ×1
iscsi ×1
mac-address ×1
mac-osx ×1
memory ×1
nfs ×1
openbsd ×1
password ×1
pf ×1
solaris ×1
windows ×1
zfs ×1