第一次遭遇云服务器完全崩溃

日期：2021-05-23 栏目：程序人生浏览：次

第一次遭遇云服务器完全崩溃：CPU 突然 100%、控制台无法重启、控制台无法强制关机。到目前为止，腾讯云的工程师和我本人都没有找到具体原因。

本文所示图片使用的是 github 仓库图片，网速过慢的朋友请移步原文地址或者来我的小站godbmw.com

1. 案件陈述

案发地点：腾讯学生云 ubuntu 16.04，宽带 1M

案发时间：2018-10-09 13:40

案件陈述：

2018-10-09 12:37 左右，CPU 使用率突增到 100%，内网出入宽带、流量包、内存使用量均无异常。

2018-10-09 13:28 正式死机，控制台无法强制重启（清除缓存、更换浏览器依然无法重启）、无法强制关机。

开始提交工单，周折很久，讨论无果。遂没有消息。

2018-10-09 14:00 重回控制台，再次强制重启成功！

重新上线了自己的项目和公司的一些脚本，庆幸没造成损失。

检查日志，和腾讯云工单的工程师讨论。双方确认日志没有问题，无法排查出错误。

2. 灾难现场

首先是，个人网站无法进入，如下图：

第一次遭遇云服务器完全崩溃

首先是，无法强制重启和强制关机，如下图所示，请注意截图上方的报错提示信息：

第一次遭遇云服务器完全崩溃

腾讯云的控制台已经说明了，强制关机是强制切断电源的物理操作！这都没法进行，我本人表示很迷。

在提交的工单的过程中，有大概 20 分钟的时间，是没有任何回复的。然后大概到了 2018-10-09 14:00，多次尝试后，终于可以强制关机和重启了。有图为证：

第一次遭遇云服务器完全崩溃

以上情况，不得不让我怀疑，是工程师们手动去关的服务器电源:)

3. 如何补救？

经过这次服务器事件才体会到：云服务的稳定性是多么重要！ 这次事件腾讯云的工程师也没语焉不详，我只能猜测是：服务器的物理问题。

所以，我这次果断准备了两个服务器，开始做“负载均衡”（还要修改备案）。除此之外，日常备份数据也是非常重要。

最后，还是希望云服务商的服务尽量保持稳定，至少在服务器崩溃的情况下，可以找出崩溃原因并且修复。