小编Kam*_*iel的帖子

尽管有大量免费交换，但 oom-killer 杀死进程

这台机器有大量的交换，但进程仍然偶尔会被 oom-killer 杀死。谁能解释这种行为，更重要的是如何防止它发生？

消息输出：

python invoked oom-killer: gfp_mask=0x1200d2, order=0, oomkilladj=4
Pid: 13996, comm: python Not tainted 2.6.27-gentoo-r8cluster-e1000 #9

Call Trace:
 [<ffffffff8025ab6b>] oom_kill_process+0x57/0x1dc
 [<ffffffff802460c7>] getnstimeofday+0x53/0xb3
 [<ffffffff8025ae78>] badness+0x16a/0x1a9
 [<ffffffff8025b0a9>] out_of_memory+0x1f2/0x25c
 [<ffffffff8025e181>] __alloc_pages_internal+0x30f/0x3b2
 [<ffffffff8026fea0>] read_swap_cache_async+0x48/0xc0
 [<ffffffff8026ff6f>] swapin_readahead+0x57/0x98
 [<ffffffff80266d0e>] handle_mm_fault+0x408/0x706
 [<ffffffff8057da33>] do_page_fault+0x42c/0x7e7
 [<ffffffff8057baf9>] error_exit+0x0/0x51

Mem-Info:
Node 0 DMA per-cpu:
CPU    0: hi:    0, btch:   1 usd:   0
CPU    1: hi:    0, btch:   1 usd:   0
CPU    2: hi:    0, btch:   1 usd:   0
CPU    3: hi:    0, btch:   1 usd:   0
Node 0 DMA32 …

Run Code Online (Sandbox Code Playgroud)

linux memory

Kam*_*iel

lucky-day

8
推荐指数

1
解决办法

7276
查看次数

以用户身份杀死“已删除”的 SGE 作业

有没有办法让我的用户可以终止自己卡在dr状态的作业？

qstat -f <jobid>

Run Code Online (Sandbox Code Playgroud)

作为用户，返回

job <jobid> is already in deletion

Run Code Online (Sandbox Code Playgroud)

但是当以 root 运行时，它确实被删除了

gridengine

puf*_*ish

2011 05-05

8
推荐指数

1
解决办法

1万
查看次数

什么是收集文件系统使用统计信息的好工具？

我们的计算集群有许多文件系统，有很多用户存储了很多非常大的文件。我们想监控文件系统并帮助优化他们的使用，以及扩展计划。

为此，我们需要某种方式来监控这些文件系统的使用情况。基本上我想知道有关文件的各种统计信息：

年龄
访问频率
上次访问次数
类型
尺寸

理想情况下，此信息将以汇总形式提供给任何目录，以便我们可以根据项目或用户对其进行监控。

除了自己用 Python 编写一些东西之外，我还没有找到任何能够执行这些任务的工具。有什么建议吗？

linux filesystems

Kam*_*iel

2012 11-01

6
推荐指数

1
解决办法

1757
查看次数

您是否为每台设备使用相同的 root 密码？

这与密码最佳实践有关，但更具体。

您是否对组织中的所有服务器使用相同的 root 密码？对于一类设备内？

password

Kam*_*iel

2017 04-13

6
推荐指数

1
解决办法

2226
查看次数

调整 VM LUN 的 Open-iSCSI 启动器设置

我有一堆从 iSCSI LUN 运行 Xen VM 的 VM 服务器，这些服务器通过 Open-iSCSI 安装在 Dom0 主机中。这只是一个简单的单路径设置（冗余通过集群存储和虚拟 IP 位于目标端）

我正在考虑将 Open-iSCSI README 中的设置用于 iSCSI 根目录，因为它基本上是这样的：

8.2 iSCSI settings for iSCSI root
---------------------------------

When accessing the root parition directly through a iSCSI disk, the
iSCSI timers should be set so that iSCSI layer has several chances to try
to re-establish a session and so that commands are not quickly requeued to
the SCSI layer. Basically you want theopposite of when using dm-multipath.

For this setup, …

Run Code Online (Sandbox Code Playgroud)

virtualization linux iscsi

Kam*_*iel

2009 10-10

6
推荐指数

1
解决办法

2586
查看次数

您如何管理您的 Mac 工作站？

我们整个公司都是台式机上的 Mac。我们主要有 iMac 和 MacBook Pro。在过去的几年里，我们一直在使用RadMind来管理他们的系统映像，但该软件有许多缺点：

很难分辨哪些文件要排除，哪些文件要包含在负载集中
应用涉及大量系统文件的更新既复杂又容易出错

我知道大多数其他解决方案都使用 .pkg 样式的更新管理系统。我想知道的是人们在使用什么，以及您遇到了什么样的限制。特别是，添加/删除软件、软件更新、固件更新有多容易？更改系统配置文件有多容易？

mac

Kam*_*iel

lucky-day

5
推荐指数

2
解决办法

1034
查看次数

允许在无法分离会话的情况下使用屏幕

我想知道这是否可能。我希望用户能够在我们的一些主机上启动屏幕，以便多路复用他们的终端登录会话。但是，我不希望他们能够分离屏幕并让它在后台运行。

这样做的原因是登录这些机器的唯一方法是通过集群作业提交系统，因此如果屏幕分离并且用户注销，返回的唯一方法是他们碰巧重新登陆下一个作业提交的相同节点。

gnu-screen

Kam*_*iel

lucky-day

5
推荐指数

2
解决办法

583
查看次数

如何将 ZFS ACL 从一个文件克隆到另一个文件？

我想将所有 ZFS ACL 从一个文件克隆到另一个文件。

使用 POSIX ACL，这可以通过管道输出getfaclto 来完成setfacl。

是否有一种简单快捷的方法可以使用 ZFS 中的 NFSv4 样式 ACL 执行此操作？我知道我可以读出的输出，ls -lV然后将其作为 a 的一部分输入chmod，但我似乎找不到与复制 ACL 的 POSIX 方式等效的功能。

solaris zfs access-control-list

Kam*_*iel

lucky-day

5
推荐指数

1
解决办法

3477
查看次数

从不同子网上的服务器访问时，NFS 挂载“挂起”

这是一个我无法诊断的问题：

我们的用户主目录由运行 Mac OS X 10.5.7 的 Apple XServe 通过 NFS 提供服务。通常，它们会导出到我们的默认办公室子网“lan”。最近我一直在构建一个新的子网，“农场”。“farm”上的计算机与“lan”上的计算机运行相同的操作系统（openSUSE 11.1 和Gentoo），并且软件版本相同。

问题是，当我的用户在“农场”上使用机器一段时间（5 分钟，有时 30 分钟，有时一整小时）时，NFS 挂载似乎挂起。尝试对ls目录或尝试访问用户主目录的任何其他内容（例如登录等）执行操作只会卡住。从“挂起”机器挂载到其他 NFS 服务器似乎按预期工作。

客户端或服务器的日志中没有任何内容表明存在任何问题。相同类型的客户端在默认的“lan”子网中工作得很好。

我已经尝试了 NFS 服务器和客户端的各种不同配置（禁用/启用 kerberos，不同的挂载选项），但似乎没有任何区别。

我强烈怀疑这两个子网之间存在一些网络级问题，可能是防火墙/路由器（OpenBSD 使用 pf 作为数据包过滤器）造成的一些问题。两组机器之间的连接相当简单： x serve --> switch --> router --> switch --> clients

对于接下来要尝试的调试方法或可能的解决方案，我几乎一无所知。关于如何从这一点解决这个问题的任何想法？

更新：

还是没能解决这个问题。当我scrub在内部接口上禁用时，我以为我已经将其扼杀在萌芽状态，但问题再次显现出来。奇怪的是 pf 似乎还在修改一些数据包。

在农场vlan 端的示例对话：

09:17:39.165860 node001.farm.foo.com.769 > barstar.lan.foo.com.nfsd: S 2887472382:2887472382(0) win 5840 <mss 1460,sackOK,timestamp 236992843 0,nop,wscale 6> (DF)
09:17:39.166124 barstar.lan.foo.com.nfsd > node001.farm.foo.com.769: . ack 43 win 65535 <nop,nop,timestamp 316702204 236992843> (DF) …

Run Code Online (Sandbox Code Playgroud)

linux nfs openbsd mac-osx pf

Kam*_*iel

2009 06-23

4
推荐指数

1
解决办法

5161
查看次数