问题记录
问题记录
安装、使用kubernetes的过程中遇到的所有问题的记录。
推荐直接在Kubernetes的GitHub上提issue,在此记录所提交的issue。
重启kubelet时报错,目前的解决方法是:
1.在docker.service配置中增加的--exec-opt native.cgroupdriver=systemd
配置。
2.手动删除slice(貌似不管用)
3.重启主机,这招最管用😄
上面的几种方法在该bug修复前只有重启主机管用,该bug已于2017年4月27日修复,merge到了master分支,见https://github.com/kubernetes/kubernetes/pull/44940
API server的HA如何实现?或者说这个master节点上的服务api-server
、scheduler
、controller
如何实现HA?目前的解决方案是什么?
目前的解决方案是api-server是无状态的可以启动多个,然后在前端再加一个nginx或者ha-proxy。而scheduler和controller都是直接用容器的方式启动的。
3.Kubelet启动时Failed to start ContainerManager systemd version does not support ability to start a slice as transient unit
CentOS系统版本7.2.1511
kubelet启动时报错systemd版本不支持start a slice as transient unit。
尝试升级CentOS版本到7.3,看看是否可以修复该问题。
与kubeadm init waiting for the control plane to become ready on CentOS 7.2 with kubeadm 1.6.1 #228类似。
4.kube-proxy报错kube-proxy[2241]: E0502 15:55:13.889842 2241 conntrack.go:42] conntrack returned error: error looking for path of conntrack: exec: "conntrack": executable file not found in $PATH
导致的现象
kubedns启动成功,运行正常,但是service之间无法解析,kubernetes中的DNS解析异常
解决方法
CentOS中安装conntrack-tools
包后重启kubernetes集群即可。
当pod被调度到无法权限不足的node上时,pod一直处于pending状态,且无法删除pod,删除时一直处于terminating状态。
kubelet中的报错信息
6.PVC中对Storage的容量设置不生效
使用glusterfs做持久化存储文档中我们构建了PV和PVC,当时给glusterfs-nginx
的PVC设置了8G的存储限额,nginx-dm
这个Deployment使用了该PVC,进入该Deployment中的Pod执行测试:
从截图中可以看到创建了9个size为1G的block后无法继续创建了,已经超出了8G的限额。
7. 使用 Headless service 的时候 kubedns 解析不生效
kubelet 的配置文件 /etc/kubernetes/kubelet
中的配置中将集群 DNS 的 domain name 配置成了 ––cluster-domain=cluster.local.
,虽然对于 service 的名字能够正常的完成 DNS 解析,但是对于 headless service 中的 pod 名字解析不了,查看 pod 的 /etc/resolv.conf
文件可以看到以下内容:
修改 /etc/kubernetes/kubelet
文件中的 ––cluster-domain=cluster.local.
将 local 后面的点去掉后重启所有的 kubelet,这样新创建的 pod 中的 /etc/resolv.conf
文件的 DNS 配置和解析就正常了。
8. kubernetes 集成 ceph 存储 rbd 命令组装问题
kubernetes 使用 ceph 创建 PVC 的时候会有如下报错信息:
检查 kube-controller-manager
的日志将看到如下错误信息:
该问题尚未解决,参考 Error creating rbd image: executable file not found in $PATH#38923
9. Helm: Error: no available release name found
在开启了RBAC的kubernetes集群中,当使用helm部署应用,执行helm install
的时候,会报着个错误:
这是因为我们使用的2.3.1
版本的helm init的时候没有为tiller创建serviceaccount
和clusterrolebiding
的缘故导致的。
参考
参考
Last updated