2020年工作上的最大收获——监控告警体系 (2)

环比
环比主要是与前一段时间的对比,比如这一小时(或一天)的请求量与上一小时(或一天)的请求量对比,如果小于如果小于某个阈值,就触发我们的告警。

同比
有些时候环比是不可靠的,比如,我们系统的特性就是周二、周三、周四的请求量要远大于周五、周六、周天的请求量,此时如果拿周六的请求量和周五的请求量的去对比是没有意义的,这里就需要用到同比,即拿上周五的请求量和本周五的请求量进行对比,当小于某个阈值的时候触发告警。
注意:这里的告警和阈值并非可以一蹴而就的,需要结合实际去慢慢调整它到一个合适的值,我们就深感其痛。(起初就因为一些不合理的告警配置,我们优秀的人工智能经常三更半夜给打你电话,结果通常是虚惊一场,它还比较轴,你不处理它就一直打)。
5 监控成果
历时半年,我们对系统的监控告警体系的打造总算是告一段落。俗话说要想吃多少肉,就要先挨多少揍。这期间过程虽然是辛苦的,但成果也是巨大的。之前的问题得到了良好的解决。大部分的线上问题,第一时间就暴露了出来,有些问题在测试环境上通过监控就提早发现。这也侧面的助力我们的测试工作。甚至在监控体系上线后一些“陈年”老bug也开始暴露出来。生产事件率大幅下降。
最重要的是每个开发人员对系统多了一种掌控的感觉,期待有一天,一群苦逼了许久的程序员可以在今后的每次发布后,轻松看着监控大盘,喝茶扯淡!

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyyfxf.html