kubernetes coredns 处于 CrashLoopBackOff 状态,并出现“未找到名称服务器”错误

Dai*_*igo 4 domain-name-system kubernetes kubeadm

我曾尝试在我的裸机服务器上使用 kubeadm 构建 kubernetes,并将 containerd 作为 cri,但安装 cni (weave-net) 后似乎 coredns 无法启动。

两个 coredns 容器现在处于“CrashLoopBackOff”状态,它们的日志为:

plugin/forward: no nameservers found
Run Code Online (Sandbox Code Playgroud)

而“kubectl描述pod”的描述如下:

Events:
  Type     Reason            Age                    From               Message
  ----     ------            ----                   ----               -------
  Warning  FailedScheduling  4m52s (x9 over 13m)    default-scheduler  0/1 nodes are available: 1 node(s) had taint {node.kubernetes.io/not-ready: }, that the pod didn't tolerate.
  Normal   Scheduled         4m7s                   default-scheduler  Successfully assigned kube-system/coredns-58cf647449-8pq7k to k8s
  Normal   Pulled            3m13s (x4 over 4m6s)   kubelet            Container image "localhost:5000/coredns:v1.8.4" already present on machine
  Normal   Created           3m13s (x4 over 4m6s)   kubelet            Created container coredns
  Normal   Started           3m13s (x4 over 4m6s)   kubelet            Started container coredns
  Warning  Unhealthy         3m13s                  kubelet            Readiness probe failed: Get "http://10.32.0.3:8181/ready": dial tcp 10.32.0.3:8181: connect: connection refused
  Warning  BackOff           2m54s (x12 over 4m5s)  kubelet            Back-off restarting failed container
Run Code Online (Sandbox Code Playgroud)

如果我在 /etc/resolv.conf 上添加一些设置,例如“nameserver 8.8.8.8”,coredns pods 就会开始运行。然而,目前我根本不使用任何外部 dns,并且使用 Docker 作为 cri,尽管 /etc/resolv.conf 上没有设置,但 coredns 运行良好。

是否可以在不在 resolv.conf 上设置一些上游 dns 服务器的情况下处理这个问题?

服务器信息:

OS: RedHat Enterprise Linux 8.4
cri: containerd 1.4.11
cni: weave-net 1.16
tools: kubeadm, kubectl, kubelet 1.22.1
Run Code Online (Sandbox Code Playgroud)

我也尝试过使用 calico 作为 cni,但结果是一样的。

Dai*_*igo 7

原因是 coredns 默认在其 ConfigMap 上有一个转发设置。尽管 /etc/resolv.conf 上没有 DNS 设置,但它试图将请求转发到上游 DNS 服务器。

# kubectl edit configmap coredns -n kube-system
Run Code Online (Sandbox Code Playgroud)

删除以下部分后,它启动并正常工作。

    forward . /etc/resolv.conf {
       max_concurrent 1000
    }
Run Code Online (Sandbox Code Playgroud)

  • @Diago,是的,确实如此。 (3认同)
  • 我添加了一个伪造的 IP,我的系统 /etc/resolv.conf 作为名称服务器,在提前部署 k3s 时我无法解决这个问题。名称服务器 8.8.8.8 差不多。 (2认同)