我正在为能源咨询业务开发软件并监控数据中心的能源使用情况,我注意到数据中心的典型电力负载“模式”只是一条平坦的线,因为所有设备都 24/7 全天候运行。如果您将其与我们所做的实际使用模式(网络负载、CPU 使用率等)进行比较,您通常会长时间使用很少使用但可用的全部容量。
这些模式在许多情况下是非常可预测的,为了节省能源,定期或在低负载条件下关闭部分设备(服务器、交换机、存储)会很好。但是,我可以想到必须考虑的几个方面,包括
可能还有更多。是否有处理这种情况的软件,还有什么应该注意的?这是一个可行的建议吗?
就我而言,集群并不一定意味着在操作系统级别对机器进行集群,通过负载平衡器(即应用程序级别集群)接收请求的相同主机也将被计算在内。我不确定 MySQL 集群或类似的工作方式,但我可能也会计算这些。
我正在寻找任何操作系统的建议。
另请参阅我在 Stack Overflow 上提出这个问题的关于能源效率的帖子。
原始问题:如何使用多台计算机创建更快的环境?我有大约 12 台计算机,每台 4GB,每台 2GHz。我需要运行一些耗时的数据转换,并希望使用这些机器的综合能力。他们都运行Win2003服务器。
基本上,我们需要转换大量视频文件,以便我们的分析师进行分析。这个问题很复杂,因为我不能告诉你更多关于这个项目的信息。
原帖:https : //stackoverflow.com/questions/1126710/is-it-possible-to-create-a-faster-computer-from-many-computers
我们被要求提供一个中央数据库服务器继续运行的系统,即使在对服务器的操作系统或数据库服务器软件应用安全更新时也是如此。据我所知,这包括需要重新启动服务器的安全更新。
集群技术似乎很明显,但如果服务器真的可以在集群使用时重新启动,我有几个问题:
我面临以下问题:服务器饱和,因为当前的负载平衡策略是基于客户端 IP 的。一些企业客户端从大型代理后面访问我们的服务器,因此所有客户端对我们的负载平衡器都具有相同的 IP。我认为我们正在使用一些硬件负载平衡设备(如有必要,可以进一步调查)。我们需要保持会话亲和性(站点是在 ASP 中构建的),因此所有具有相同 IP 的请求都会路由到同一个节点。
由于所有通信都通过 HTTPS,因此没有请求数据(如会话 ID)可用于平衡器作为客户端鉴别器。有没有办法使用除 IP 之外的其他一些数据来区分客户端并将客户端路由到不同的节点?
注意:我需要保持平衡器和节点之间的流量安全(加密)。
我们希望使用以下方法设置具有实时迁移和故障转移功能的 3 节点 Hyper-V 集群:
我们将从数据中心运行此设置,因此将我们的工具包放在一起。
谁能解释一下我们应该如何设置网络连接以使系统变得冗余?
我们已经研究了这篇很棒的文章,但不确定如何正确可靠地设置 3 个服务器:http : //faultbucket.ca/2011/01/hyper-v-failover-cluster-setup/。
我相信我们需要网络连接:实时迁移、心跳、管理、hyper-v 等。
我假设当我们从 DC 运行它时,所有 IP 都必须是公共 IP?
AD 服务器将是 VM。每个 Hyper-V 服务器上有一个,并且设置为非 HA。
我遇到了一个奇怪的 Windows 2008R2 集群相关问题,困扰着我。我觉得我已经接近问题所在,但仍然不完全了解正在发生的事情。
我有一个运行在两台 2008R2 服务器上的两节点交换 2007 集群。在“主要”集群节点上运行时,交换集群应用程序工作正常。将群集资源故障转移到辅助节点时会出现此问题。
当将集群故障转移到“辅助”节点时,例如与“主要”节点在同一子网上,故障转移最初工作正常,集群资源继续在新节点上工作几分钟。这意味着接收节点确实会发送一个更新网络上的 arp 表的免费 arp 回复数据包。但是在 x 时间(通常在 5 分钟内)之后,某些东西会再次更新 arp 表,因为集群服务突然不响应 ping。
所以基本上,当它在“主节点”上运行时,我开始对交换集群地址执行 ping 操作。它工作得很好。我将集群资源组故障转移到“辅助节点”,我只丢失了一个可以接受的 ping。群集资源在故障转移后仍会响应一段时间,并且突然 ping 开始超时。
这告诉我 arp 表最初是由辅助节点更新的,但随后(我还没有发现)错误地再次更新它,可能是主节点的 MAC。
为什么会发生这种情况 - 有没有人遇到过同样的问题?
群集未运行 NLB,故障转移回没有问题的主节点后,问题会立即停止。
每个节点都将 NIC 组合 (intel) 与 ALB 结合使用。就我而言,每个节点都在同一个子网上,并且具有网关等输入正确。
编辑:
我想知道它是否可能与网络绑定顺序有关?因为我注意到从节点到节点我能看到的唯一区别是在显示本地 arp 表时。在“主”节点上,arp 表是在作为源的集群地址上生成的。而在“辅助”上,它是从节点自己的网卡生成的。
对此有任何意见吗?
编辑:
好的,这里是连接布局。
集群地址:AB6.208/25 交易所申请地址:AB6.212/25
节点 A:3 个物理网卡。两个使用 intels 组合,地址为 AB6.210/25,称为 public 最后一个用于集群流量,称为 private,地址为 10.0.0.138/24
节点 B:3 个物理网卡。两个使用 intels 绑定,地址为 AB6.211/25,称为 public 最后一个用于集群流量,称为 private,地址为 10.0.0.139/24
每个节点位于连接在一起的独立数据中心。DC1 中的终端交换机为 cisco,DC2 中为 NEXUS 5000/2000。
编辑: …
我通过 Hyper-V 或 VMWare 阅读了很多关于高可用性虚拟化的文章。在这种情况下,本质上的高可用性意味着 VM 由一组物理服务器(节点)托管,因此如果其中一个物理服务器出现故障,该 VM 仍然可以由其他物理服务器提供服务。到目前为止一切顺利,物理集群和 VM 本身是高度可用的。
但是,如果提供的服务,比如说 SQL 服务器、MSDTC 或任何其他服务,实际上是由 VM 映像和虚拟化操作系统提供的。所以我想虚拟层仍然存在未考虑的故障点。虚拟机本身可能会发生物理集群无法解释的事情,对吗?在这种情况下,物理故障转移群集 (Hyper-V) 或 VMWare 主机无法进行故障转移,因为问题不在于物理群集中的一台服务器 - 故障转移物理节点不会有任何好处。
这是否需要在物理集群之上构建一个虚拟故障转移集群,或者这不是必要的?
或者,我想您可以跳过物理集群,而只在虚拟层进行集群(基于子故障转移集群),因为它应该仍然可以在物理故障中幸免于难。
请参阅下图,显示基于父项(左)、基于子项(右)和组合(中心)。是根据您的需要以父母为基础,还是以孩子为基础更合适?

目前,我们使用 Rackspace 云服务器。我们无意停止使用它们,但想考虑建立一个物理服务器集群(可能是 400 美元范围内的台式计算机,每个具有 8GB 内存)来抵消我们的一些负载并作为辅助的、更强大的工作,不太可靠的系统。换个角度看,我们可以以与在 Rackspace Cloud 上租用一个月的价格相同的价格购买类似的台式计算机。
我知道这通常是一个愚蠢的想法。然而,在这个特定的例子中,服务器集群需要它的计算能力。它不是关键任务,它不托管面向消费者的网站,如果它宕机一两天,也不是真正的问题。
目前,我们可以访问企业级verizon fios。如果我理解正确,我们可以通过该服务获得至少 25 个专用 IP 地址,这应该足够了。
需要什么样的路由器或交换机?
台式电脑可以吗?
应该使用什么工具来“映像”服务器。
我们还缺少哪些我们应该关注的事情?
我正在研究这个项目,以开发一个系统,该系统通过一个小城市的开放 Wi-Fi 提供有关紧急情况的集中信息。
我来自智利,所以我们认为这个系统可以工作,特别是当城市发生地震时(就在去年我们有一个 8.8 Richter)。我的专业领域是网络,但我已经在服务器上工作了一段时间。我的新手是服务器硬件......
您知道哪种硬件可以更好地支撑:塔式还是机架式?(塔显然以某种方式附着在地面上)
此外,根据您的经验,是拥有冗余内部硬件(冗余硬盘驱动器和电源)还是复制整个硬件(集群服务器、2 个路由器、2 个交换机等)更好?
谢谢
我正在评估使用两台现成服务器来构建廉价 iSCSI 冗余 SAN 的可能性。这个想法是运行 linux、pacemaker 和 iSCSI 目标——类似于linux-ha-examples 上的SAN Active-Passive。
当我阅读时,同一页让我有点害怕:
在 iscsi-target 的切换过程中,可以检测到 write-test.log 协议中的一个间隙。在我们的设置中,我们观察到了 30 秒的延迟。存在与 ext3 和 iSCSI 故障转移有关的问题报告 此配置已在 ext2 和 ext3 上进行了测试,并且适用于两个文件系统。
有没有人将一个由 linux 盒子制成的冗余 iSCSI SAN 投入生产?故障转移事件真的那么糟糕吗?I/O 中的 30 秒冻结对我来说听起来像是一场灾难,不是吗?