我正在尝试调试一些在现场使用的戴尔平板电脑间歇性崩溃的偶发问题。查看事件查看器日志,似乎 Windows 会在崩溃后自动创建内存转储文件。但 Windows 还会在创建后的 15 秒内自动删除该内存转储文件,因为平板电脑硬盘上的可用空间不足 25 GB。(我想可能有 23 GB 的可用空间,或者类似的东西。)
那显然仍然有足够的空间,所以我希望门槛不要设得那么高。我怎样才能改变它?或者更确切地说,我如何完全禁用该清理步骤?我真的需要处理这些内存转储之一,以便我可以更好地分析真正的问题是什么。
错误地,我在我的 ubuntu 服务器上执行了一些使用所有内存(我认为是交换)的应用程序,现在它崩溃了,SSH 不起作用并冻结。除了以下解决方案,您还知道其他选择吗:
当 ssh 不起作用时,有什么方法可以远程重新启动服务器?我仍然可以 ping 服务器,所以想知道是否有任何保留内存用于杀死不友好的进程或基本命令,例如重新启动操作系统。
*使用“nohup”执行的命令,因此它们不会以关闭 ssh 会话而结束。
所以我最近购买了一个服务器级系统以及所有服务器级外围设备。我获得了 ESXi 6 的许可并且安装了所有最近的补丁。系统现在已经运行了大约 2 周,突然间我完全崩溃了。
我已将此错误代码解释为“内部计时器错误”。我已将信息转发给 SuperMicro,但老实说,到目前为止,我对他们的回复并不是很自信。我的解释是系统根本不应该崩溃——因为它是一个运行 ESXi 的带有 ECC 内存的 Xeon。
是否有可能这是一次性错误,不应再次发生?你会如何处理这件事?从那些看到过这些类型的错误以及他们最终实际做了什么的人那里寻求一些建议。
今天早上我们有一个系统离线。系统日志中唯一的内容是:
Mar 20 15:27:15 fooserver systemd[1]: Received SIGINT.
Mar 20 15:27:15 fooserver systemd[1]: Starting Synchronise Hardware Clock to System Clock...
Mar 20 15:27:15 fooserver systemd[1]: Stopping system-ifup.slice.
Mar 20 15:27:15 fooserver systemd[1]: Removed slice system-ifup.slice.
Mar 20 15:27:15 fooserver rsyslogd: [origin software="rsyslogd" swVersion="8.4.2" x-pid="579" x-info="http://www.rsyslog.com"] exiting on signal 15.
Run Code Online (Sandbox Code Playgroud)
然后是五个小时的间隔,直到它被手动重新启动。
当它恢复时,一切都按原样运行。
没有其他日志文件(我在 /var/log 中的所有内容中搜索了这段时间)显示任何异常。
到目前为止我得到的最好的是有人在设备室并按下了按钮(不小心)。但这很薄。只有少数人可以访问,我认为当时没有人在现场。
有没有其他地方可以寻找这个?或者,也许,我下次可以设置其他什么来监视这个?
我目前在屏幕上运行此命令,尝试下次捕获它:
sysdig -p '%proc.pname[%proc.ppid]: %proc.name -> %evt.type(%evt.args)' evt.type=kill
我有一台我多年前建造的服务器,它运行起来像个冠军。但在过去的几个月里,它开始变得严重不稳定,没有明显的模式。我一直在调试它并更换零件无济于事。我已经更换了系统中我能想到的几乎所有东西,这可能是用于存储的保存驱动器的原因。
请注意,系统运行的是 CentOS 7.5。
症状是机器会自发地执行硬复位,就好像电源正在循环或突然断电一样。它可以每隔几天发生一次,有时一天发生两次。系统可以是空闲的,也可以是有负载的。没有模式。
除了基本的必需品,我已经删除了所有内容。请注意,我已替换:
主板、CPU、RAM 和 PSU。
如果任何 ram 棒有缺陷,我希望看到已更正/无法更正的 ECC 错误的日志,而我没有。如果是 CPU,我会期待一些更随机的东西,因为可能的内核恐慌有一些日志记录。我怀疑它可能是电源的故障并更换了它。问题仍然存在,所以我尝试更换主板。没变。
系统配置了两个处理器和 16 根相同的内存条,所以我试图卸下一个 CPU 和一半的内存,看看它是否崩溃,然后换另一套。症状没有变化。
我开始移除额外的组件,并达到了最低限度,症状没有变化。
我现在完全不知所措。除了系统中剩下的几个驱动器之外,我已经没有什么可以尝试替换案例本身的保存了。
什么可能导致我的服务器自行重置?我还能测试什么?故障真的来自其中一个驱动器吗?
目前系统规格如下:
基础组件:
- SuperMicro H8DG6-F (主板)
- 1x AMD Opteron 处理器 6328 (CPU)
- 16GB x 8海力士 DDR3 ECC HMT42GR7BMR4C-G7(内存)
贮存:
- 1x三星 SSD 850 PRO 128GB …
我在运行 VMWare 的虚拟 Windows Server 2008 R2 SP1 服务器时遇到问题。该服务器正在运行 Citrix 并且还安装了 Symantec Endpoint Protection。它随机崩溃并进入 BSOD。
调查事件日志没有产生任何关于崩溃原因的有用信息。我运行了 Windows 调试并生成了如下所示的报告。显然它指向一个失败的驱动程序。问题是我无法确定是什么驱动程序导致了它。我想知道是否有人可以提供一些帮助。
----------
## Bugcheck Analysis ##
SYSTEM_SERVICE_EXCEPTION (3b)
An exception happened while executing a system service routine.
Arguments:
Arg1: 00000000c0000005, Exception code that caused the bugcheck
Arg2: fffff9600008744d, Address of the instruction which caused the bugcheck
Arg3: fffff88007ba3de0, Address of the context record for the exception that caused the bugcheck
Arg4: 0000000000000000, zero.
Debugging Details:
------------------
Page 125923 not present in the dump …Run Code Online (Sandbox Code Playgroud) 我以低成本托管服务租用了一台专用服务器(带有 Intel Haswell CPU 和定制硬件),并将其与 CentOS 6.4 / 64 位 Linux(带有库存内核:2.6.32-358.14.1.el6.x86_64)一起使用。
每隔几周它就会挂起,其他客户似乎也有类似的问题。
在dmesg我看到的输出中(这里是完整的 dmesg 输出):
CPU0: Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz stepping 03
....
NMI watchdog enabled, takes one hw-pmu counter.
....
iTCO_wdt: Intel TCO WatchDog Timer Driver v1.07rh
iTCO_wdt: Found a Lynx Point TCO device (Version=2, TCOBASE=0x1860)
iTCO_wdt: initialized. heartbeat=30 sec (nowayout=0)
Run Code Online (Sandbox Code Playgroud)
在进程列表中,我看到:
# ps uawwwx|grep [w]atchdog
root 6 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/0]
root 10 0.0 0.0 …Run Code Online (Sandbox Code Playgroud) 硬件:类型:HP Proliant ML350 G5 RAM 22GB CPU 1 x Intel Xenon E5405 2.00GHz
OP:ESXi 5.5 刚刚从 5.1 更新,以尝试修复在相同硬件上的 ESXi 5.1 上发生的崩溃。
我试图找出我们的一台服务器崩溃的原因,它在 24 小时内有两次锁定。前面的内部错误灯闪烁红色,内部只有“#5 and #6 page 76 manual”“处理器 2”灯“琥珀色”和“电源”灯“绿色”闪烁。
在日志中,我在相关时间范围内可以看到的唯一错误是在日志下。这是原因吗?或者我还能做些什么来尝试记录/定位错误。
来自 zcat syslog.6.gz | 较少的
2014-05-26T11:55:47Z sfcbd[35064]: Error opening socket pair for getProviderContext: Too many open files
2014-05-26T11:55:47Z sfcbd[35064]: Failed to set recv timeout (30) for socket -1. Errno = 9
2014-05-26T11:55:47Z sfcbd[35064]: Failed to set timeout for local socket (e.g. provider)
2014-05-26T11:55:47Z sfcbd[35064]: spGetMsg receiving from -1 35064-9 …Run Code Online (Sandbox Code Playgroud) 我有一台 Windows Server 2012 R2 服务器,它充当多个 Windows/Linux VM 的 Hyper-V 主机。从昨天开始,服务器一秒一秒离线,会自动重启。我发现这是由蓝屏引起的:
昨天这种情况发生了三遍:
20:57:26
20:15:29
19:57:17
我做了一项研究,发现这可能是驱动程序的问题,尤其是网络适配器,以及大发送卸载设置。我激活了它,所以我禁用了它。之后服务器一直稳定运行到现在(近24小时)。刚才服务器又崩溃了。
所以这似乎是一个软件问题,但我无法找出导致问题的原因。这个月我没有安装新的软件或驱动程序,这可能是造成这些问题的原因。几天前只有 Windows 更新。
所有崩溃似乎都是相同的问题,因为错误检查字符串、代码和第一个参数是相同的。司机也是平等的。
我该怎么做才能找到并解决问题?
我们正在运行一个 KVM 节点,它不规则地崩溃,表现出非常奇怪的行为。有趣的是,我们已经在另一个节点上遇到了这个问题,它每 1-2 周就会崩溃一次。由于找不到硬件问题,我们开始将 VM 迁移到新节点。在我们迁移了 50% 的虚拟机大约一周后,新节点崩溃了,而“旧”节点从那时起运行良好(正常运行时间为 3 周,我们已经好几个月没有看到这么好的正常运行时间了)。
当一个节点崩溃时,我们有时会在 Supermicro IPMI 上看到这些奇怪的东西:
我们还看到:
在崩溃之前,我们从未看到内核恐慌或至少日志中的一些消息,完全沉默,直到灯突然熄灭。
随着问题从一台服务器“转移”到另一台服务器(一台全新的机器),我认为只剩下几个选项了:
有关机器的更多信息:
有没有人看到过这种行为,或者可以谈谈控制台上奇怪的“消息”吗?我从未见过这样的事情,甚至不知道我应该如何为谷歌搜索描述这一点。目前我们还没有很好的想法接下来应该做什么,因为它可能是一切。
提前致谢!
hardware server-crashes kernel supermicro kvm-virtualization
server-crashes ×10
dump ×2
hardware ×2
linux ×2
vmware-esxi ×2
bsod ×1
centos6 ×1
debug ×1
hp ×1
hp-proliant ×1
kernel ×1
ssh ×1
supermicro ×1
ubuntu ×1
watchdog ×1
windows ×1
windows-8.1 ×1
zfs ×1
zfsonlinux ×1