Kubernetes DNS 查找问题和 /etc/resolv.conf 文件中的“无效”

Zed*_*TuX 5 kubernetes kube-dns kubeadm coredns

我已经部署了一个由一个主节点和两个工作节点组成的 Kubernetes 集群,使用kubeadmFlannel 网络驱动程序(所以我将--pod-network-cidr=10.244.0.0/16标志传递给kubeadm init)。

这些节点使用 VPN 进行通信,以便:

  • 主节点IP地址为10.0.0.170
  • 工人 1 IP 地址是 10.0.0.247
  • 工人 2 IP 地址是 10.0.0.35

当我创建一个新的 pod 并尝试 ping google 时,出现以下错误:

/ # ping google.com
ping: bad address 'google.com'
Run Code Online (Sandbox Code Playgroud)

我按照Kubernetes DNS 调试解析文档页面中的说明进行操作:

$ kubectl exec -ti busybox -- nslookup kubernetes.default
Server:    10.96.0.10
Address 1: 10.96.0.10

nslookup: can't resolve 'kubernetes.default'
command terminated with exit code 1
Run Code Online (Sandbox Code Playgroud)

首先检查本地DNS配置

$ kubectl exec busybox cat /etc/resolv.conf
nameserver 10.96.0.10
search default.svc.cluster.local svc.cluster.local cluster.local invalid
options ndots:5
Run Code Online (Sandbox Code Playgroud)

检查 DNS pod 是否正在运行

$ kubectl get pods --namespace=kube-system -l k8s-app=kube-dns
NAME                       READY   STATUS    RESTARTS   AGE
coredns-5c98db65d4-cqzb7   1/1     Running   0          7d18h
coredns-5c98db65d4-xc5d7   1/1     Running   0          7d18h
Run Code Online (Sandbox Code Playgroud)

检查 DNS pod 中的错误

$ for p in $(kubectl get pods --namespace=kube-system -l k8s-app=kube-dns -o name); do kubectl logs --namespace=kube-system $p; done
.:53
2019-10-28T13:40:41.834Z [INFO] CoreDNS-1.3.1
2019-10-28T13:40:41.834Z [INFO] linux/amd64, go1.11.4, 6b56a9c
CoreDNS-1.3.1
linux/amd64, go1.11.4, 6b56a9c
2019-10-28T13:40:41.834Z [INFO] plugin/reload: Running configuration MD5 = 5d5369fbc12f985709b924e721217843
.:53
2019-10-28T13:40:42.870Z [INFO] CoreDNS-1.3.1
2019-10-28T13:40:42.870Z [INFO] linux/amd64, go1.11.4, 6b56a9c
CoreDNS-1.3.1
linux/amd64, go1.11.4, 6b56a9c
2019-10-28T13:40:42.870Z [INFO] plugin/reload: Running configuration MD5 = 5d5369fbc12f985709b924e721217843
Run Code Online (Sandbox Code Playgroud)

DNS 服务启动了吗?

$ kubectl get svc --namespace=kube-system
NAME       TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)                  AGE
kube-dns   ClusterIP   10.96.0.10   <none>        53/UDP,53/TCP,9153/TCP   7d18h
Run Code Online (Sandbox Code Playgroud)

DNS 端点是否公开?

$ kubectl get ep kube-dns --namespace=kube-system
NAME       ENDPOINTS                                               AGE
kube-dns   10.244.0.3:53,10.244.0.4:53,10.244.0.3:53 + 3 more...   7d18h
Run Code Online (Sandbox Code Playgroud)

是否正在接收/处理 DNS 查询?

我对 coredns ConfigMap 进行了更新,再次运行该nslookup kubernetes.default命令,结果如下:

$ for p in $(kubectl get pods --namespace=kube-system -l k8s-app=kube-dns -o name); do kubectl logs --namespace=kube-system $p; done
.:53
2019-10-28T13:40:41.834Z [INFO] CoreDNS-1.3.1
2019-10-28T13:40:41.834Z [INFO] linux/amd64, go1.11.4, 6b56a9c
CoreDNS-1.3.1
linux/amd64, go1.11.4, 6b56a9c
2019-10-28T13:40:41.834Z [INFO] plugin/reload: Running configuration MD5 = 5d5369fbc12f985709b924e721217843
[INFO] Reloading
2019-11-05T08:12:12.511Z [INFO] plugin/reload: Running configuration MD5 = 906291470f7b1db8bef629bdd0056cad
[INFO] Reloading complete
2019-11-05T08:12:12.608Z [INFO] 127.0.0.1:55754 - 7434 "HINFO IN 4808438627636259158.5471394156194192600. udp 57 false 512" NXDOMAIN qr,rd,ra 132 0.095189791s
.:53
2019-10-28T13:40:42.870Z [INFO] CoreDNS-1.3.1
2019-10-28T13:40:42.870Z [INFO] linux/amd64, go1.11.4, 6b56a9c
CoreDNS-1.3.1
linux/amd64, go1.11.4, 6b56a9c
2019-10-28T13:40:42.870Z [INFO] plugin/reload: Running configuration MD5 = 5d5369fbc12f985709b924e721217843
[INFO] Reloading
2019-11-05T08:12:47.988Z [INFO] plugin/reload: Running configuration MD5 = 906291470f7b1db8bef629bdd0056cad
[INFO] Reloading complete
2019-11-05T08:12:48.004Z [INFO] 127.0.0.1:51911 - 60104 "HINFO IN 4077052818408395245.3902243105088660270. udp 57 false 512" NXDOMAIN qr,rd,ra 132 0.016522153s
Run Code Online (Sandbox Code Playgroud)

所以看起来 DNS pod 正在接收请求。

但是我已经有这个错误了!

我第一次部署集群时发生了这个错误。

当时,我注意到kubectl get nodes -o wide工作节点的公共 IP 地址显示为“INTERNAL-IP”而不是私有地址。

进一步观察,我发现在工作节点上,kubelet 缺少--node-ip标志,因此我添加了它并重新启动了 Kubelet,问题就消失了。然后我得出结论,丢失标志是原因,但似乎并非如此,因为该kubectl get nodes -o wide命令将内部 IP 地址显示为工作人员的“内部 IP”。

现在

DNS 服务器 IP 地址 10.96.0.10 在我看来是错误的,我无法从 pod ping 它。DNS pod 的 IP 地址为 10.244.0.3 和 10.244.0.4,我也无法 ping 通。

我只是尝试删除 coredns pod,以便再次安排它们,现在它们的 IP 地址已更改,我可以从 pod 和kubectl exec -ti busybox -- nslookup kubernetes.default作品中ping 它们:

$ kubectl exec -ti busybox -- nslookup kubernetes.default
Server:    10.96.0.10
Address 1: 10.96.0.10 kube-dns.kube-system.svc.cluster.local

Name:      kubernetes.default
Address 1: 10.96.0.1 kubernetes.default.svc.cluster.local
Run Code Online (Sandbox Code Playgroud)

但是resolv.conf文件里面仍然有“无效”:

$ kubectl exec busybox cat /etc/resolv.conf
nameserver 10.96.0.10
search default.svc.cluster.local svc.cluster.local cluster.local invalid
options ndots:5
Run Code Online (Sandbox Code Playgroud)
  • 谁能解释一下发生了什么?
  • 我该如何从resolv.conf文件中解决这个“无效”问题?

Mar*_* K. 5

正如在CoreDNS ConfigMap 中配置的,默认上游名称服务器是从节点继承的,即集群域 (.cluster.local) 之外的所有内容

所以“无效”是/etc/resolv.conf在创建 Pod 期间从 Node文件复制的条目。

如果您要/etc/resolv.conf在 Node 上手动修改,则每个 PoddnsPolicy: ClusterFirst都将继承/etc/resolv.conf此修改。

因此,在向--node-ipkubelet添加标志并重新启动 CoreDNS Pod 后,您应该重新部署 busybox Pod,以便它可以/etc/resolv.conf从Node.js 继承。