我需要解决一些与 Unix 系统上的环境变量相关的问题。
在 Windows 上,我可以使用 ProcessExplorer 之类的工具来选择特定的进程并查看每个环境变量的值。
我怎样才能在 Unix 上完成同样的事情?echoing和envcmd 只显示当前的值,但我想查看正在运行的进程当前使用的值。
登录到我的 Webmin 控制面板,我注意到几乎所有的磁盘空间都已满。我在我的系统上搜索了十个最大的文件/目录,发现一个名为 ibdata1 的文件占用了大约 94GB 的空间。它驻留在我的 /var/lib/mysql 目录中。
ibdata1 有什么作用?我可以安全地删除它吗?我的假设是它是某种垃圾,但这只是一个疯狂的猜测。
我们遇到了一个奇怪的行为,我们看到 CPU 利用率很高,但平均负载很低。
我们监控系统的以下图表可以最好地说明这种行为。

在大约 11:57,CPU 利用率从 25% 上升到 75%。平均负载没有显着变化。
我们运行的服务器有 12 个内核,每个内核有 2 个超线程。操作系统将其视为 24 个 CPU。
CPU 利用率数据是通过/usr/bin/mpstat 60 1每分钟运行一次来收集的。all行和%usr列的数据显示在上面的图表中。我确信这确实显示了每个 CPU 数据的平均值,而不是“堆叠”利用率。虽然我们在图表中看到 75% 的利用率,但我们看到一个进程显示在top.
平均负载数字取自/proc/loadavg每分钟。
uname -a 给出:
Linux ab04 2.6.32-279.el6.x86_64 #1 SMP Wed Jun 13 18:24:36 EDT 2012 x86_64 x86_64 x86_64 GNU/Linux
Run Code Online (Sandbox Code Playgroud)
Linux 发行版是 Red Hat Enterprise Linux Server release 6.3 (Santiago)
我们在机器上以相当高的负载运行几个 Java Web 应用程序,每台机器每秒 100 个请求。
如果我正确解释了 CPU 利用率数据,当我们有 75% 的 CPU 利用率时,这意味着我们的 …
最近,我在kern.log我的一台服务器中注意到了这样的条目:
Feb 16 00:24:05 aramis kernel: swapper: page allocation failure. order:0, mode:0x20
Run Code Online (Sandbox Code Playgroud)
我想知道:
交换使用率非常低(小于 10%),到目前为止我还没有注意到任何进程因为内存不足而被杀死。
附加信息:
当您解决困难的网络/硬件/软件问题时,您是否有任何可以依靠的一般规则?
例如:“我通过用第二台计算机测试外围设备来隔离问题的根源”或“我移除尽可能多的硬件来启动设备,然后一个一个地添加组件,直到我可以重现问题” , 等等。
我们都曾抱怨“网络”在某些时候“慢”:可能被本地化到一个房间(交换机)或一台计算机,可能只是互联网(DNS?浏览器问题?),可能只是一个应用程序(长时间运行的 SQL 查询?正在运行 AV 扫描?)。
当您排除了明显的系统和/或应用程序问题后,您将如何测试网络的缓慢或不稳定行为?你在 OSI 层上工作吗?如果是这样,如何检查每一层?您如何确保物理网络在未知环境中正常运行?广播过多或广播风暴怎么办?第 3 层及以上?跟踪路由?任何其他提示,方法,想法?适用于各种规模网络的必备功能和工具(端口镜像、SNMP、监控等)?
我正在寻找有关如何在 2008 终端服务器中断开、注销或重置用户会话的一些想法(无法以用户身份登录,因为它已完全锁定)。这是一个生产环境,所以现在重启服务器或在系统范围内做一些事情是不可能的。任何 Powershell 技巧可以帮助我们解决这个问题?
我们尝试直接从同一终端服务器(来自任务管理器、终端服务管理器和资源监视器)断开连接、注销用户并重置会话以及终止会话进程,但没有任何结果。
帮助!
更新:我们最终重新启动了服务器,因为没有其他我们认为可行的尝试。我将这个问题保持开放,希望有人可能有关于这个问题的更多信息,它是潜在的修复
在尝试设置 MSSQL 集群解决方案时,我遇到了一个超出我专业知识范围的与网络相关的问题。
我试图找到一个免费 IP 用于我的节点。我要求网络管理员给我一个免费的 IP 地址。为了争论,他给了我一个应该未使用的 IP 10.40.1.205。
在集群设置期间尝试使用给定的 IP 时,SQL 抱怨 IP 已被使用。
我尝试从我的服务器 ping IP,我得到了回复,说... 10.40.59.69...?
知道是什么导致了这样的事情,更重要的是如何解决它?
在带有 Debian 6 的raid 10 和 4xSSD 的新 Xeon 55XX 服务器中,我在服务器建成后的两周内经历了 2 次随机关闭。在关闭之前查看带宽日志并没有表明任何异常。服务器负载通常很低(大约1)并且它位于很远的地方。服务器宕机时似乎没有停电。
我知道我查看了 /var/log 但不确定我应该调查哪些日志以及我应该寻找什么。所以感谢你的提示。
今天早上,一位明显心烦意乱的同事联系了我们的技术支持团队。她注意到我们团队的一名成员改变了她的工作空间:
她的显示器已关闭(她希望进入待机模式)。
她的椅子设置被改变了。
她已注销,Windows 登录框中显示了我们团队成员之一的姓名。
第一个问题似乎导致了困惑和沮丧,因为她想知道为什么她没有看到她的 PC 从备用节点恢复。
第二个问题似乎触发了对尊重和安慰的需求。显然,她需要一些时间才能找到合适的环境让自己感到舒适。
第三个问题似乎源于她希望在 1-2 天的三个月假期之前结束工作。我们的公司病毒扫描程序可能需要 1-2 小时才能在她的旧 PC 上完成每周一次的扫描,这似乎是在登录时触发的。这降低了她的工作效率。
在她听到我们团队可能需要做这些事情的原因后,她恢复了愉快的状态。但我想知道什么“礼节”可能会避免/最小化触发她所有这些反应。
粗略的谷歌搜索和这里的搜索没有返回任何特别有见地的信息。所以我想我会邀请读者的回应来生成一个最佳实践列表,在解决其他人工作区中的问题时。
在此先感谢您的贡献。
troubleshooting ×10
linux ×3
networking ×2
cpu-usage ×1
ip ×1
load-average ×1
maintenance ×1
memory ×1
mysql ×1
performance ×1
process ×1
ubuntu-12.04 ×1
unix ×1