小编lux*_*fer的帖子

不明原因的 Linux 高内存使用率

在搜索了这个并且只找到了不能正确解释“缓存”数字的人的帖子后,我决定问这个问题。

我手头有一些服务器,它们的行为很奇怪。也就是说,他们的 RAM 使用率非常高,原因不明。似乎一个不可见的进程有很多“使用过的”RAM(我的意思是“使用过的”)。

这是一些信息:

  • 所有服务器都运行 SLES 11
  • 内核是 3.0.76
  • 所有服务器都在 VMWare ESX 基础架构下作为来宾运行
  • 我没有设置服务器,对操作系统的选择没有发言权,也没有访问虚拟化基础设施的权限
  • 所有服务器的设置都相似,并且它们确实运行相同的软件集(它是一个集群,是的,我知道,虚拟化集群,yada yada,正如所说:我对此没有发言权)

还有一些shell输出:

root@good-server:# free -m
             total       used       free     shared    buffers     cached
Mem:         15953      14780       1173          0        737       8982
-/+ buffers/cache:       5059      10894
Swap:        31731          0      31731

root@good-server:# python ps_mem.py
[... all processes neatly listed ...]
---------------------------------
                          4.7 GiB
=================================

root@bad-server:# free -m
             total       used       free     shared    buffers     cached
Mem:         15953      15830        123          0        124       1335
-/+ buffers/cache:      14370       1583
Swap:        31731         15      31716

root@bad-server:# …
Run Code Online (Sandbox Code Playgroud)

virtualization linux memory vmware-vsphere

10
推荐指数
1
解决办法
2863
查看次数

如何为 CUDA 设备设置 SGE?

我目前面临将 GPU 服务器集成到现有 SGE 环境中的问题。使用谷歌我找到了一些集群的例子,其中已经设置了这个,但没有关于如何完成的信息。

是否有某种形式的方法或教程?它不必非常冗长,但它应该包含足够的信息来启动和运行“cuda 队列”......

提前致谢...

编辑:要设置一个负载传感器,了解一个节点中有多少 GPU 是空闲的,我已经完成了以下操作:

  • 将 GPU 的计算模式设置为独占
  • 将 GPU 设置为持久模式
  • 将以下脚本作为负载传感器添加到集群配置中(并将其设置为 1 秒。)
#!/bin/sh

主机名=`uname -n`

而 [1]; 做
  读取输入
  结果=$?
  如果 [ $result != 0 ]; 然后
    出口 1
  菲
  if [ "$input" == "quit" ]; 然后
    退出 0
  菲


  smitool=`which nvidia-smi`
  结果=$?
  如果 [ $result != 0 ]; 然后
    gpusav=0
    gpu=0
  别的
    gpustotal=`nvidia-smi -L|wc -l`
    gpusused=`nvidia-smi |grep "进程名称" -A 6|grep -v +-|grep -v \|=|grep -v 用法|grep -v "没有运行"|wc -l`
    gpusavail=`echo $gpustotal-$gpusused|bc` …

gridengine cuda

5
推荐指数
2
解决办法
1万
查看次数