云计算之路-阿里云上:节点 CPU 波动引发 docker swarm 集群故障

非常抱歉,今天 10:05-10:20 左右,我们用阿里云服务器搭建的 docker swarm 集群又出现故障,又是因为突然的节点 CPU 波动。

受这次故障影响的站点有 闪存,博问,班级,园子,短信息,招聘,小组,网摘,openapi ,由此给您带来很大的麻烦,请您谅解。

故障前先是有一个 worker 节点出现 CPU 100% 报警:

云服务器ECS实例:swarm1-node5,CPU使用率于10:00发生告警,值为100%,持续时间1分钟

收到报警后,我们将这个节点下线并重启:

docker node update --availability drain swarm1-node5

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zygjxg.html