TL; DR

跳到下面的答案中的解决方法.

目前最好的解决方案是发布帮助票 - 等待 - 或重新创建你的AKS集群(可能不止一次,交叉你的手指,见下文......)但应该有更好的东西.至少请授予AKS预览客户的能力,无论支持层如何,都要升级其针对此特定问题的支持请求严重性.

您还可以尝试扩展群集(假设不会破坏您的应用).

GitHub怎么样？

许多上述GitHub问题已经解决,但问题仍然存在.以前有一个关于这个问题的公告文件,但是目前还没有这样的状态更新,即使问题仍然存在:

https://github.com/Azure/AKS/tree/master/annoucements

我发布这个,因为我有一些我没有在其他地方看到的新花絮,我想知道是否有人有想法解决问题的其他潜在选择.

受影响的VM /节点资源使用情况

我在其他地方没有提到的第一篇文章是节点/ vms /实例上的资源使用情况,这些资源使用受上述Kubectl"无法连接到服务器:net/http:TLS握手超时"问题的影响.

生产节点利用率

我受影响的集群上的节点如下所示:

利用率和网络的下降与磁盘利用率的增加和我们开始遇到问题的时间段密切相关.

在此图表之前的整个节点/ VM利用率在过去30天内基本持平,并且与生产站点流量/更新推送等相关的一些颠簸.

减轻问题后的度量标准(已添加事后检查)

对于上述观点,以下是在扩展然后退回之后相同节点的指标(这恰好缓解了我们的问题,但并不总是有效 - 请参见底部的答案):

请注意CPU和网络中的"Dip"？ 这就是Net/http:TLS问题影响我们的地方 - 以及何时从Kubectl无法访问AKS服务器.似乎除了没有响应我们的请求之外,它还没有与VM/Node通信.

一旦我们回来(将#个节点向上扩展,然后退回 - 查看解决方法的答案),度量标准(CPU等)恢复正常 - 我们可以从Kubectl连接.这意味着我们可以创建一个关于此行为的警报(我在Azure DevOps方面询问此问题:https://github.com/Azure/AKS/issues/416)