标签: troubleshooting

Unix 上正在运行的进程的环境变量?

我需要解决一些与 Unix 系统上的环境变量相关的问题。

在 Windows 上,我可以使用 ProcessExplorer 之类的工具来选择特定的进程并查看每个环境变量的值。

我怎样才能在 Unix 上完成同样的事情?echoingenvcmd 只显示当前的值,但我想查看正在运行的进程当前使用的值。

linux unix troubleshooting environment-variables process

241
推荐指数
9
解决办法
15万
查看次数

我的 /var/lib/mysql 目录中的 ibdata1 文件是什么?

登录到我的 Webmin 控制面板,我注意到几乎所有的磁盘空间都已满。我在我的系统上搜索了十个最大的文件/目录,发现一个名为 ibdata1 的文件占用了大约 94GB 的空间。它驻留在我的 /var/lib/mysql 目录中。

ibdata1 有什么作用?我可以安全地删除它吗?我的假设是它是某种垃圾,但这只是一个疯狂的猜测。

mysql maintenance troubleshooting ubuntu-12.04

40
推荐指数
2
解决办法
9万
查看次数

CPU 利用率高但平均负载低

我们遇到了一个奇怪的行为,我们看到 CPU 利用率很高,但平均负载很低。

我们监控系统的以下图表可以最好地说明这种行为。

CPU使用率和负载

在大约 11:57,CPU 利用率从 25% 上升到 75%。平均负载没有显着变化。

我们运行的服务器有 12 个内核,每个内核有 2 个超线程。操作系统将其视为 24 个 CPU。

CPU 利用率数据是通过/usr/bin/mpstat 60 1每分钟运行一次来收集的。all行和%usr列的数据显示在上面的图表中。我确信这确实显示了每个 CPU 数据的平均值,而不是“堆叠”利用率。虽然我们在图表中看到 75% 的利用率,但我们看到一个进程显示在top.

平均负载数字取自/proc/loadavg每分钟。

uname -a 给出:

Linux ab04 2.6.32-279.el6.x86_64 #1 SMP Wed Jun 13 18:24:36 EDT 2012 x86_64 x86_64 x86_64 GNU/Linux
Run Code Online (Sandbox Code Playgroud)

Linux 发行版是 Red Hat Enterprise Linux Server release 6.3 (Santiago)

我们在机器上以相当高的负载运行几个 Java Web 应用程序,每台机器每秒 100 个请求。

如果我正确解释了 CPU 利用率数据,当我们有 75% 的 CPU 利用率时,这意味着我们的 …

linux troubleshooting cpu-usage load-average

38
推荐指数
4
解决办法
8万
查看次数

页面分配失败 - 我是否内存不足?

最近,我在kern.log我的一台服务器中注意到了这样的条目:

Feb 16 00:24:05 aramis kernel: swapper: page allocation failure. order:0, mode:0x20
Run Code Online (Sandbox Code Playgroud)

我想知道:

  1. 该消息究竟是什么意思?
  2. 我的服务器内存不足吗?

交换使用率非常低(小于 10%),到目前为止我还没有注意到任何进程因为内存不足而被杀死。

附加信息:

  • 服务器是运行 Debian 6.0 的 Xen 实例 (DomU)
  • 它有 512 MB 的 RAM 和一个 512 MB 的交换分区
  • 虚拟机内的 CPU 负载平均为 0.25

linux troubleshooting memory

28
推荐指数
1
解决办法
7万
查看次数

您的故障排除规则、故障排除方法?

当您解决困难的网络/硬件/软件问题时,您是否有任何可以依靠的一般规则?

例如:“我通过用第二台计算机测试外围设备来隔离问题的根源”或“我移除尽可能多的硬件来启动设备,然后一个一个地添加组件,直到我可以重现问题” , 等等。

troubleshooting

22
推荐指数
6
解决办法
2万
查看次数

对“慢”网络进行故障排除

我们都曾抱怨“网络”在某些时候“慢”:可能被本地化到一个房间(交换机)或一台计算机,可能只是互联网(DNS?浏览器问题?),可能只是一个应用程序(长时间运行的 SQL 查询?正在运行 AV 扫描?)。

当您排除了明显的系统和/或应用程序问题后,您将如何测试网络的缓慢或不稳定行为?你在 OSI 层上工作吗?如果是这样,如何检查每一层?您如何确保物理网络在未知环境中正常运行?广播过多或广播风暴怎么办?第 3 层及以上?跟踪路由?任何其他提示,方法,想法?适用于各种规模网络的必备功能和工具(端口镜像、SNMP、监控等)?

networking troubleshooting performance

21
推荐指数
3
解决办法
4万
查看次数

无法在生产环境中注销、断开连接或重置终端服务器用户

我正在寻找有关如何在 2008 终端服务器中断开、注销或重置用户会话的一些想法(无法以用户身份登录,因为它已完全锁定)。这是一个生产环境,所以现在重启服务器或在系统范围内做一些事情是不可能的。任何 Powershell 技巧可以帮助我们解决这个问题?

我们尝试直接从同一终端服务器(来自任务管理器、终端服务管理器和资源监视器)断开连接、注销用户并重置会话以及终止会话进程,但没有任何结果。

帮助!


更新:我们最终重新启动了服务器,因为没有其他我们认为可行的尝试。我将这个问题保持开放,希望有人可能有关于这个问题的更多信息,它是潜在的修复

windows-server-2008 troubleshooting terminal-server

20
推荐指数
4
解决办法
21万
查看次数

为什么我的 ping 得到的 IP 地址与被 ping 的 IP 地址不同?

在尝试设置 MSSQL 集群解决方案时,我遇到了一个超出我专业知识范围的与网络相关的问题。

我试图找到一个免费 IP 用于我的节点。我要求网络管理员给我一个免费的 IP 地址。为了争论,他给了我一个应该未使用的 IP 10.40.1.205。

在集群设置期间尝试使用给定的 IP 时,SQL 抱怨 IP 已被使用。

我尝试从我的服务器 ping IP,我得到了回复,说... 10.40.59.69...?

知道是什么导致了这样的事情,更重要的是如何解决它?

networking troubleshooting ip

18
推荐指数
1
解决办法
9万
查看次数

如何调查意外的 Linux 服务器关闭?

在带有 Debian 6 的raid 10 和 4xSSD 的新 Xeon 55XX 服务器中,我在服务器建成后的两周内经历了 2 次随机关闭。在关闭之前查看带宽日志并没有表明任何异常。服务器负载通常很低(大约1)并且它位于很远的地方。服务器宕机时似乎没有停电。

我知道我查看了 /var/log 但不确定我应该调查哪些日志以及我应该寻找什么。所以感谢你的提示。

troubleshooting unexpected-shutdown debian-squeeze

18
推荐指数
3
解决办法
10万
查看次数

排查他人工作场所问题的礼仪

今天早上,一位明显心烦意乱的同事联系了我们的技术支持团队。她注意到我们团队的一名成员改变了她的工作空间:

  1. 她的显示器已关闭(她希望进入待机模式)。

  2. 她的椅子设置被改变了。

  3. 她已注销,Windows 登录框中显示了我们团队成员之一的姓名。

第一个问题似乎导致了困惑和沮丧,因为她想知道为什么她没有看到她的 PC 从备用节点恢复。

第二个问题似乎触发了对尊重和安慰的需求。显然,她需要一些时间才能找到合适的环境让自己感到舒适。

第三个问题似乎源于她希望在 1-2 天的三个月假期之前结束工作。我们的公司病毒扫描程序可能需要 1-2 小时才能在她的旧 PC 上完成每周一次的扫描,这似乎是在登录时触发的。这降低了她的工作效率。

在她听到我们团队可能需要做这些事情的原因后,她恢复了愉快的状态。但我想知道什么“礼节”可能会避免/最小化触发她所有这些反应。

粗略的谷歌搜索和这里的搜索没有返回任何特别有见地的信息。所以我想我会邀请读者的回应来生成一个最佳实践列表,在解决其他人工作区中的问题时。

在此先感谢您的贡献。

troubleshooting

17
推荐指数
2
解决办法
4852
查看次数