更新:我更新了消息的标题,因为我最近在17163091968s. 这应该可以帮助人们调查症状以找到此页面。请参阅下面我(自我)接受的答案。
我在 VMware vSphere 数据中心有一堆 64 位 Ubuntu 10.04 LTS VM。VMware 工具已安装(vSphere 客户端显示“OK”)。
我已经看到一些 VM 挂起几次,并在 syslog 中出现以下错误。从 vSphere 检查情况时,控制台是黑色的,并且“Reboot guest”命令没有执行任何操作,因此我不得不重新启动 VM。
Dec 1 11:44:15 s0 kernel: [18446744060.007150] BUG: soft lockup - CPU#0 stuck for 17163091988s! [jed:26674]
Dec 1 11:44:15 s0 kernel: [18446744060.026854] Modules linked in: btrfs zlib_deflate crc32c libcrc32c ufs qnx4 hfsplus hfs minix ntfs vfat msdos fat jfs xfs exportfs reiserfs xt_tcpudp iptable_filter ip_tables x_tables acpiphp fbcon tileblit font bitblit softcursor ppdev vga16fb psmouse …Run Code Online (Sandbox Code Playgroud) 问题
我们在现有平台上的性能存在问题,所以我正在转向蜂巢思维,以寻求对此的第二意见。到目前为止,性能问题与 IOPS 而不是吞吐量有关。
情景
由 16 台主机组成的刀片中心,每台主机具有 64GB 的 RAM。(它是带有 M610 的 Dell M1000e,但这可能无关紧要)500 台虚拟机、所有 Web 服务器(或相关的 Web 技术,例如 MySQL、负载平衡器等),大约 90% 是 Linux,其余为 Windows。管理程序是 VMWare vSphere。我们需要提供主机HA,所以本地存储用完了。因此,主机只需一张 SD 卡即可启动。
一点背景思考
目前,我们有多达 6 台主机(刀片中心将在一年内以目前的增长达到满负荷),并且我们正在将 iSCSI 运行到带有 MD1220 的 Dell MD3220i 以进行扩展。
我们考虑过的可能选项,以及随之而来的即时想法:
问题
你会在所有这些之下运行什么样的存储?它不需要扩展到另一个刀片中心,它只需要为所有这些 VM 提供相对良好的性能。
我不是在寻找“购买 SAN x 因为它是最好的”的答案。我正在寻找关于各种 SAN 技术(iSCSI、FC、FCoE、InfiniBand、NFS 等)、不同类型的存储(SATA、SAS、SSD)以及处理 100 多个 VM …
virtualization storage storage-area-network nfs vmware-vsphere
我有一个 vmdk 文件和 vmx 文件(以及其他人数据存储中的所有其他文件)复制到我自己的数据存储中。如果我尝试从 vmx 文件进行部署,我会得到一个名为“unknown # (invalid)”的 vm,其中 # 是一个序列号,具体取决于我尝试了多少次。如果我尝试从 vmdk 部署,我会得到一个无法启动的 VM。
有没有一种简单的方法可以从 VM 文件夹启动并运行 VM?
编辑:当我尝试从 VMX 文件部署时,我得到了这个虚拟机:

我无法编辑设置或启动它。
编辑:
我们解决了这个问题。文件是VMPlayer给我们的,硬件版本不兼容。我们降低了硬件版本并导出为 .ova 文件。从那里我们能够导入到 vCenter。
我的 iSCSI 网络出现了大问题,似乎无法尽可能快地运行。
因此,我已经尝试了几乎所有方法来从我的 SAN 中获得全部性能,并让 VMware 和 EMC 的专家参与其中。
我的设备的简短描述:3x HP DL360 G7 / vSphere 5.5 / 4 个板载网卡 / 4 个 PCIe Intel 网卡用于 iSCSI 2x HP 2510-24G 1x EMC VNXe 3100 / 2 个存储处理器,每个都有 2 个 iSCSI 专用网卡 / 24x RAID15k SAS / 6x 7.2k SAS RAID6
我采用了最佳实践并将存储池均匀地放在两个 iSCSI 服务器上。我创建了 2 个 iSCSI 服务器,每个存储处理器上一个。请参阅我的 iSCSI 配置的图像。

iSCSI 流量通过 VLAN 分离(禁止为其他 VLAN 设置),我什至在 29xx 系列的另一台 HP 交换机上尝试过。启用流量控制(也尝试禁用),禁用 Jumbo。不涉及路由。
在 ESX 主机上,所有 iSCSI NIC 都在使用,因为我对每个数据存储都使用了循环设置。我还尝试使用 1 IO 的路径更改策略,因为许多其他人似乎已经通过这种方式获得了性能。我也尝试了内部网卡(Broadcom),但没有区别。在交换机上,我可以看到端口在 ESX …
我的戴尔T110服务器运行ESXi 4.1
使用vSphere我连接到ESXi
的vSphere操作系统是Windows 7虚拟机中运行
Windows 7的虚拟机在VMware Fusion运行我的Mac OS X系统上
当我在 vSphere 中并选择了一个 VM 并单击某些系统上的控制台选项卡时,当我按下 control + command 键时,VM 控制台不会释放我。
pfSense (FreeBSD) 和 Ubuntu Server 的行为是这样的。我无法退出他们的控制台屏幕。我必须关闭这些 VM 才能从它们的 VM 控制台访问中释放出来。
Windows、Ubuntu 桌面等都表现得如我所料;当我按下 control + command 键时,我会从 VM 控制台中释放出来,并且可以在 vSphere 中导航。
有谁知道可能是什么原因导致这种情况或解决方法?
提前致谢。
假设您有一个完全虚拟化的 VMware 基础架构:ESXi、vCenter、vMotion、HA、DRS,整个包。
在内部,您有许多 VM,它们在任何给定时间都可能驻留在一台主机或另一台主机上(这就是集群的全部意义,不是吗?)。
您遇到了断电的情况,并且以某种方式成功地关闭了所有 VM 和所有主机;我们暂时不深入研究这个问题,假设您的 UPS 软件可以处理它。或者,至少,让我们假设关闭不是那么优雅,但是一旦电源恢复,一切仍然能够再次出现。
电源恢复,您的主机重新启动。
您的环境非常复杂,并且它在 VM 之间具有天然的依赖关系:域控制器应该首先启动,应用服务器不能启动,除非它的后端数据库服务器已经启动并运行,等等。
我们都知道(或者应该知道)如何配置自动 VM 启动以及如何在单个 ESX/i 主机上指定 VM 启动顺序和延迟。
但是如何在整个数据中心内做到这一点呢?
有什么方法可以告诉 vSphere“以全局顺序启动这些虚拟机,而不管它们运行在哪个物理主机上”?
加分项:如果 vCenter 本身在虚拟机上运行,这会如何改变事情?
startup datacenter vmware-esxi vmware-vcenter vmware-vsphere
我开始探索在现有和新安装中使用的VMware 分布式交换机(dvSwitches 或 VDS)。假设 VMware 5.1 及更高版本具有Enterprise Plus许可。在此之前,我充分利用了通过正确类型的物理上行链路(1GbE 或 10GbE)定义并在单个主机上独立管理的标准 vSwitch。
在基本方面,使用分布式交换机对我有何帮助?检查 Internet 上描述的其他安装和设置,我看到很多情况下,虚拟管理网络或 VMkernel 接口保留在标准交换机上,VM 流量流向分布式交换机;混合模型。我什至看到了完全避免分布式交换机的建议!但最重要的是,我在网上找到的信息似乎已经过时了。在转换我现有服务器的一个弱尝试中,我不确定需要在何处定义管理接口,并且无法找到有关如何解决此问题的好答案。
那么,这里的最佳实践是什么?使用标准和分布式交换机的组合?或者这只是不是一种具有良好思想共享的技术?最近在 VDS 中加入了 LACP 功能对此有何影响?
这是一个真实的新安装场景:
构建此设置的最干净、最有弹性的方法是什么?我被要求使用分布式交换机并可能包含 LACP。
这个 vCenter 服务器刚刚升级到 5.1 update 1。我正在检查主机并更新固件,然后将它们从 5.0 的各种版本升级到 5.1u1。
vCenter 5.1u1 似乎有一个有趣的新行为:当主机断开连接后重新连接时,它会从维护模式中删除主机——但非常不一致,我在大约 25-30 次主机重新启动时看到它可能 4 到 5 次。我只看到它发生在尚未升级到 5.1 的 5.0 主机上。

在图像中,我将主机置于维护模式并将其重新启动到 HP SPP DVD 的自动更新模式。在通常约 40 分钟的更新过程之后,主机重新联机......甚至在记录主机已重新连接之前 7 秒,vCenter 已向主机发送了退出维护模式的任务。

根据我的理解,只有当 vCenter 将主机置于维护模式时(例如 VUM 升级任务),vCenter 才应将主机从维护模式中删除。
为什么此 vCenter 会单方面从用户启动的维护模式中退出主机?
编辑,附加信息:
我同时在另外 5 台主机上运行了固件升级。其中两个在重新连接后退出维护模式,三个没有。退出维护模式的共同因素似乎是他们离线的时间;尝试启动到虚拟媒体的两个尝试是退出维护模式的两个。
编辑:断开连接时间的想法似乎是一个红鲱鱼,因为它并没有持续发生。
此外,在vpxd.log退出维护模式中,任务启动似乎总是紧跟在此vim.EnvironmentBrowser.queryProvisioningPolicySOAP 调用之后。这是线条,为了清晰起见略有修剪:
15:27:49.535 [info 'vpxdvpxdVmomi'] [ClientAdapterBase::InvokeOnSoap] Invoke done …Run Code Online (Sandbox Code Playgroud) 我们在其他地方有一台 ESXi 服务器。我可以使用 vSphere 客户端连接到服务器。
有一个外部 USB 硬盘驱动器插入服务器。
如何将停止的 VM 复制到外部硬盘驱动器?
我想将大型操作系统安装 ISO 直接下载到我的数据存储。我曾经能够通过 SSH 连接到 ESXi 终端并用于wget将大文件直接下载到数据存储,但现在似乎wget无法处理https链接 ( wget: not an http or ftp url)。
我想知道其他人如何处理这个问题。我知道我可以将文件下载到我的笔记本电脑并使用数据存储浏览器上传它,但这是一个两步过程(更不用说当我在异地并通过 VPN 访问 ESX 时效率极低)。
在此先感谢您的任何建议!
vmware-vsphere ×10
vmware-esxi ×7
datacenter ×1
emc-vnxe ×1
iscsi ×1
kernel ×1
lacp ×1
networking ×1
nfs ×1
startup ×1
storage ×1
ubuntu ×1
vswitch ×1