第一讲:企业级运维监控理理论基础 (2)

  如果我们使用老式傻瓜式的监控nagios,里面的监控脚本很全面,生成报警规则和阈值也很简单,缺点也显而易见;监控太粗糙,实用性不强,另外也不利于希望提高的同学

  业务级别监控的算法 运维自身无法做到十分专业

  

  监控图形 曲线QPS上涨,下跌,QPS和历史数据的比较方法,等等这些都属于业务级别的监控阈值类型

  需要有专业的数据分析人员的协助 才可以算出优良的算法

  例如:如果我现在想针对QPS下跌率进行报警计算,那么用什么样的公式针对我们的业务类型更贴切

  计算当前5分钟内的平均值<一个固定数值的时候 报警合适

  计算当前10分钟的总量然后和前一个小时同一时间段比较

  计算当前1小时的平均值和过去一周内每一天同一时间段的时间比较合适

  这些数据算法和Linux无关,只有非常专业的数据计算团队,才可以给出一个合理的算法

  监控稳定测试

  不管是一次性采集,还是后台采集,只要是部署在Linux都会多多少少产生一定影响

  

  监控自动化

  监控客户端的批量部署,监控服务端的HA安装,监控项目的修改,监控项目的监控集群变化

  这里给出几个实例

  Puppet(配置文件部署)

  Jenkins(持续集成)

  CMDB(运维自动化的最高资源管理平台和理念)

  

  监控图形化工作 

  采集好的数据和准备好的监控算法,最终需要一个好的图形展示

  grafanna的使用和搭建

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgygdd.html