小编Kam*_*iel的帖子

尽管有大量免费交换,但 oom-killer 杀死进程

这台机器有大量的交换,但进程仍然偶尔会被 oom-killer 杀死。谁能解释这种行为,更重要的是如何防止它发生?

消息输出:

python invoked oom-killer: gfp_mask=0x1200d2, order=0, oomkilladj=4
Pid: 13996, comm: python Not tainted 2.6.27-gentoo-r8cluster-e1000 #9

Call Trace:
 [<ffffffff8025ab6b>] oom_kill_process+0x57/0x1dc
 [<ffffffff802460c7>] getnstimeofday+0x53/0xb3
 [<ffffffff8025ae78>] badness+0x16a/0x1a9
 [<ffffffff8025b0a9>] out_of_memory+0x1f2/0x25c
 [<ffffffff8025e181>] __alloc_pages_internal+0x30f/0x3b2
 [<ffffffff8026fea0>] read_swap_cache_async+0x48/0xc0
 [<ffffffff8026ff6f>] swapin_readahead+0x57/0x98
 [<ffffffff80266d0e>] handle_mm_fault+0x408/0x706
 [<ffffffff8057da33>] do_page_fault+0x42c/0x7e7
 [<ffffffff8057baf9>] error_exit+0x0/0x51

Mem-Info:
Node 0 DMA per-cpu:
CPU    0: hi:    0, btch:   1 usd:   0
CPU    1: hi:    0, btch:   1 usd:   0
CPU    2: hi:    0, btch:   1 usd:   0
CPU    3: hi:    0, btch:   1 usd:   0
Node 0 DMA32 …
Run Code Online (Sandbox Code Playgroud)

linux memory

8
推荐指数
1
解决办法
7276
查看次数

以用户身份杀死“已删除”的 SGE 作业

有没有办法让我的用户可以终止自己卡在dr状态的作业?

qstat -f <jobid>
Run Code Online (Sandbox Code Playgroud)

作为用户,返回

job <jobid> is already in deletion
Run Code Online (Sandbox Code Playgroud)

但是当以 root 运行时,它确实被删除了

gridengine

8
推荐指数
1
解决办法
1万
查看次数

什么是收集文件系统使用统计信息的好工具?

我们的计算集群有许多文件系统,有很多用户存储了很多非常大的文件。我们想监控文件系统并帮助优化他们的使用,以及扩展计划。

为此,我们需要某种方式来监控这些文件系统的使用情况。基本上我想知道有关文件的各种统计信息:

  • 年龄
  • 访问频率
  • 上次访问次数
  • 类型
  • 尺寸

理想情况下,此信息将以汇总形式提供给任何目录,以便我们可以根据项目或用户对其进行监控。

除了自己用 Python 编写一些东西之外,我还没有找到任何能够执行这些任务的工具。有什么建议吗?

linux filesystems

6
推荐指数
1
解决办法
1757
查看次数

您是否为每台设备使用相同的 root 密码?

这与密码最佳实践有关,但更具体。

您是否对组织中的所有服务器使用相同的 root 密码?对于一类设备内?

password

6
推荐指数
1
解决办法
2226
查看次数

调整 VM LUN 的 Open-iSCSI 启动器设置

我有一堆从 iSCSI LUN 运行 Xen VM 的 VM 服务器,这些服务器通过 Open-iSCSI 安装在 Dom0 主机中。这只是一个简单的单路径设置(冗余通过集群存储和虚拟 IP 位于目标端)

我正在考虑将 Open-iSCSI README 中的设置用于 iSCSI 根目录,因为它基本上是这样的:

8.2 iSCSI settings for iSCSI root
---------------------------------

When accessing the root parition directly through a iSCSI disk, the
iSCSI timers should be set so that iSCSI layer has several chances to try
to re-establish a session and so that commands are not quickly requeued to
the SCSI layer. Basically you want theopposite of when using dm-multipath.

For this setup, …
Run Code Online (Sandbox Code Playgroud)

virtualization linux iscsi

6
推荐指数
1
解决办法
2586
查看次数

您如何管理您的 Mac 工作站?

我们整个公司都是台式机上的 Mac。我们主要有 iMac 和 MacBook Pro。在过去的几年里,我们一直在使用RadMind来管理他们的系统映像,但该软件有许多缺点:

  • 很难分辨哪些文件要排除,哪些文件要包含在负载集中
  • 应用涉及大量系统文件的更新既复杂又容易出错

我知道大多数其他解决方案都使用 .pkg 样式的更新管理系统。我想知道的是人们在使用什么,以及您遇到了什么样的限制。特别是,添加/删除软件、软件更新、固件更新有多容易?更改系统配置文件有多容易?

mac

5
推荐指数
2
解决办法
1034
查看次数

允许在无法分离会话的情况下使用屏幕

我想知道这是否可能。我希望用户能够在我们的一些主机上启动屏幕,以便多路复用他们的终端登录会话。但是,我不希望他们能够分离屏幕并让它在后台运行。

这样做的原因是登录这些机器的唯一方法是通过集群作业提交系统,因此如果屏幕分离并且用户注销,返回的唯一方法是他们碰巧重新登陆下一个作业提交的相同节点。

gnu-screen

5
推荐指数
2
解决办法
583
查看次数

如何将 ZFS ACL 从一个文件克隆到另一个文件?

我想将所有 ZFS ACL 从一个文件克隆到另一个文件。

使用 POSIX ACL,这可以通过管道输出getfaclto 来完成setfacl

是否有一种简单快捷的方法可以使用 ZFS 中的 NFSv4 样式 ACL 执行此操作?我知道我可以读出 的输出,ls -lV然后将其作为 a 的一部分输入chmod,但我似乎找不到与复制 ACL 的 POSIX 方式等效的功能。

solaris zfs access-control-list

5
推荐指数
1
解决办法
3477
查看次数

从不同子网上的服务器访问时,NFS 挂载“挂起”

这是一个我无法诊断的问题:

我们的用户主目录由运行 Mac OS X 10.5.7 的 Apple XServe 通过 NFS 提供服务。通常,它们会导出到我们的默认办公室子网“lan”。最近我一直在构建一个新的子网,“农场”。“farm”上的计算机与“lan”上的计算机运行相同的操作系统(openSUSE 11.1 和Gentoo),并且软件版本相同。

问题是,当我的用户在“农场”上使用机器一段时间(5 分钟,有时 30 分钟,有时一整小时)时,NFS 挂载似乎挂起。尝试对ls目录或尝试访问用户主目录的任何其他内容(例如登录等)执行操作只会卡住。从“挂起”机器挂载到其他 NFS 服务器似乎按预期工作。

客户端或服务器的日志中没有任何内容表明存在任何问题。相同类型的客户端在默认的“lan”子网中工作得很好。

我已经尝试了 NFS 服务器和客户端的各种不同配置(禁用/启用 kerberos,不同的挂载选项),但似乎没有任何区别。

我强烈怀疑这两个子网之间存在一些网络级问题,可能是防火墙/路由器(OpenBSD 使用 pf 作为数据包过滤器)造成的一些问题。两组机器之间的连接相当简单: x serve --> switch --> router --> switch --> clients

对于接下来要尝试的调试方法或可能的解决方案,我几乎一无所知。关于如何从这一点解决这个问题的任何想法?

更新:

还是没能解决这个问题。当我scrub在内部接口上禁用时,我以为我已经将其扼杀在萌芽状态,但问题再次显现出来。奇怪的是 pf 似乎还在修改一些数据包。

农场vlan 端的示例对话:

09:17:39.165860 node001.farm.foo.com.769 > barstar.lan.foo.com.nfsd: S 2887472382:2887472382(0) win 5840 <mss 1460,sackOK,timestamp 236992843 0,nop,wscale 6> (DF)
09:17:39.166124 barstar.lan.foo.com.nfsd > node001.farm.foo.com.769: . ack 43 win 65535 <nop,nop,timestamp 316702204 236992843> (DF) …
Run Code Online (Sandbox Code Playgroud)

linux nfs openbsd mac-osx pf

4
推荐指数
1
解决办法
5161
查看次数

MAC 地址欺骗/更改软件

适用于 windows、mac 和 linux 的最佳 MAC 地址更改/欺骗/编辑程序是什么?

linux windows mac mac-address

4
推荐指数
1
解决办法
2776
查看次数