Nec*_*vil 14 azure azure-kubernetes
我的问题(对MS和其他任何人)是:为什么这个问题发生了,用户/客户自己可以实现哪些解决方案而不是Microsoft支持?
关于这个问题,显然有一些"其他"问题:
多个GitHub问题发布到AKS回购:
加上一些推特线程:
目前最好的解决方案是发布帮助票 - 等待 - 或重新创建你的AKS集群(可能不止一次,交叉你的手指,见下文......)但应该有更好的东西.至少请授予AKS预览客户的能力,无论支持层如何,都要升级其针对此特定问题的支持请求严重性.
您还可以尝试扩展群集(假设不会破坏您的应用).
许多上述GitHub问题已经解决,但问题仍然存在.以前有一个关于这个问题的公告文件,但是目前还没有这样的状态更新,即使问题仍然存在:
我发布这个,因为我有一些我没有在其他地方看到的新花絮,我想知道是否有人有想法解决问题的其他潜在选择.
我在其他地方没有提到的第一篇文章是节点/ vms /实例上的资源使用情况,这些资源使用受上述Kubectl"无法连接到服务器:net/http:TLS握手超时"问题的影响.
我受影响的集群上的节点如下所示:
利用率和网络的下降与磁盘利用率的增加和我们开始遇到问题的时间段密切相关.
在此图表之前的整个节点/ VM利用率在过去30天内基本持平,并且与生产站点流量/更新推送等相关的一些颠簸.
对于上述观点,以下是在扩展然后退回之后相同节点的指标(这恰好缓解了我们的问题,但并不总是有效 - 请参见底部的答案):
请注意CPU和网络中的"Dip"? 这就是Net/http:TLS问题影响我们的地方 - 以及何时从Kubectl无法访问AKS服务器.似乎除了没有响应我们的请求之外,它还没有与VM/Node通信.
一旦我们回来(将#个节点向上扩展,然后退回 - 查看解决方法的答案),度量标准(CPU等)恢复正常 - 我们可以从Kubectl连接.这意味着我们可以创建一个关于此行为的警报(我在Azure DevOps方面询问此问题:https://github.com/Azure/AKS/issues/416)
Zimmergren在GitHub上结束表明他在更大的实例上遇到的问题少于运行裸骨小节点的问题.这对我来说很有意义,并且可能表明AKS服务器分配工作负载的方式(参见下一节)可能基于实例的大小.
"节点的大小(例如D2,A4等):)我经历过,当运行A4及以上时,我的群集比运行A2时更健康.(而且我有十几个类似的不幸的是,经历了大小组合和集群故障." (https://github.com/Azure/AKS/issues/268#issuecomment-375715435)
其他群集大小影响参考:
负责更小型集群的AKS服务器可能会更频繁地受到攻击?
我在其他地方没有提到的下一件事是你可以在同一个区域并排运行多个集群,其中一个集群(在这种情况下为我们生产)被'net/http:TLS握手超时'命中另一个工作正常,可以通过Kubectl正常连接(对我们来说这是我们相同的临时环境).
用户(上面的Zimmergren等)似乎认为节点大小影响此问题将影响您的可能性这一事实似乎也表明节点大小可能与子区域责任分配给子区域AKS的方式有关管理服务器.
这可能意味着重新创建具有不同群集大小的群集将更有可能将您置于不同的管理服务器上 - 缓解问题并降低需要多次重新创建的可能性.
我们的两个AKS集群都在美国东部.作为对上述"生产"集群指标的参考,我们的"暂存"集群(也称为美国东部)资源利用率没有大幅下降CPU /网络IO - 并且在同一时期没有磁盘等的增加:
我们的两个群集都运行相同的入口,服务,容器和容器,因此用户正在做的任何事情都不太可能导致此问题突然出现.
上述多个AKS管理服务器子区域职责的存在对于其他用户在github(https://github.com/Azure/AKS/issues/112)上描述的行为是有意义的,其中一些用户能够重新创建群集(然后可以联系),而其他人重新创建并仍然有问题.
在紧急情况下(即你的生产基地......像我们......需要管理),您可以PROBABLY刚刚重新创建,直到你得到恰好降落在不同的AKS管理服务器实例的工作组(一个是不受影响)但请注意,这可能不会在您第一次尝试时发生 - AKS群集重新创建并非完全即时.
那说......
我们受影响的虚拟机上的所有容器/入口/资源似乎都运行良好,我没有任何关于正常运行时间/资源监控的警报(除了上图中列出的利用率怪异)
我想知道为什么会出现这个问题,用户自己可以实现哪些工作,而不是Microsoft支持(目前有票).如果您有任何想法,请告诉我.
我知道Azure AKS正在预览中,很多人因为这个问题而转移到了GKE().也就是说,到目前为止,我的Azure体验一直是积极的,如果可能的话,我更愿意提供解决方案.
而且...... GKE偶尔会遇到类似的事情:
我很想知道在GKE上扩展节点是否也解决了那里的问题.
一个有趣的解决方案(对我有用)要测试的是扩大集群中的节点数量,然后再缩小......
\n\n\n\n或者,您可以(也许)从命令行执行此操作:
\n\naz aks scale --name <name-of-cluster> --node-count <new-number-of-nodes> --resource-group <name-of-cluster-resource-group>
由于这是一个棘手的问题,并且我使用了网络界面,因此我不确定上述内容是否相同或是否有效。
\n\n对于我的情况,我花了大约 2 分钟 \xe2\x80\x94 的时间,这比重新创建/配置集群(可能多次......)要好得多
\n\nZimmergren 提出了一些很好的观点,即扩展并不是真正的解决方案:
\n\n“它有时会起作用,集群在扩展后一段时间会自我修复。有时它会失败并出现相同的错误。我不考虑扩展解决方案来解决这个问题,因为这会导致其他挑战,具体取决于事物的设置方式。我不会相信 GA 工作负载的例程,这是肯定的。在当前的预览中,这有点狂野西部(并且是预期的),我很高兴炸毁集群并创建当连续失败时,就需要一个新的。” (https://github.com/Azure/AKS/issues/268#issuecomment-395299308)
\n\n由于我在遇到上述扩展解决方案时打开了支持票,因此我能够获得有关上述内容可能有效的反馈(或者更确切地说是猜测),这里有一个解释的响应:
\n\n\n\n\n“我知道,如果您进入 \xe2\x80\x9caz aks show\xe2\x80\x9d 和 \xe2\x80\x9ckubectl getnodes\xe2\ 之间节点数量不匹配的状态,扩展集群有时会有所帮助。 x80\x9d。这可能是相似的。”
\n
解决方法参考:
\n\n如果这对您不起作用,请在下面发表评论,因为我将尝试保留问题出现频率、问题是否自行解决以及此解决方案是否适用于 Azure AKS 用户的最新列表(看起来就像它并不适合所有人)。
\n\n用户向上/向下扩展不适用于:
\n\n向上/向下扩展确实适用于:
\n\n如果经过所有诊断后您仍然遇到此问题,请随时发送电子邮件至 aks-help@service.microsoft.com
\n| 归档时间: |
|
| 查看次数: |
4826 次 |
| 最近记录: |