特来电自动运维应用实践

        经过三年多的快速发展,特来电云平台从无到有,从有到强,从强到精,在应用实践中不断打磨完善,逐渐成长为国内乃至国际充电网领域的标杆,支撑了每天300余万度,总量8亿余度的充电量。这背后既有云平台沉淀出的技术创新性与前瞻性,也有云平台研发人员刨根问底追求卓越的精神,更有运维系统及运维人员枕戈待旦默默付出的努力。笔者在此抛砖引玉,略谈对监控与运维的认知,以及特来电在自动运维方面的探索与实践。

一、提升认知

1.认知监控

        一提起监控,第一种认知认为监控就是埋点各种探针,收集机器数据,对数据进行统计处理后进行展现。

        特来电云平台在监控方面经过持续迭代发展,不断提升认知,目前已经形成了比较完善的产品体系:

 

特来电自动运维应用实践

 

        首先基于大数据处理引擎Flink自研了全面监控平台,从前端到后端,涵盖系统监控、中间件监控、业务监控等,监控数据经过聚合处理后,通过Grafana进行展现,可以一览无余的对整个系统有全面的认知,但每个图表之间是孤立的,不易找出各个图表之间的关系;然后参考业界主流做法,自研了单链路监控,将一次从前到后的请求使用TraceId进行串联,使用RPCId进行排序,通过这种穿针引线的做法,真实还原了一次分布式调用关系的全貌,为定位性能瓶颈以及故障排错提供了有力支持;其次认识到单链路监控只能表示从A到B的一条关系路径,而从A到B的关系应该是多条,通过大数据离线分析技术,绘制了表示多条关系的全链路地图,对关系的认识更加全面;最后认识到前面的产品都是一种静态做法,应该通过实时流计算技术,绘制动态链路图,以期更加实时的认识整个系统的运行姿势。

        “监控”在中文中是一个单词,如果翻译成英文,是由两个单词组成的:Monitor、Control,通过分析我们发现,前面所做的工作,更多是在做“监”(Monitor),而“监”是没法直接对出现问题的机器进行“控”(Control)的,因此“控”是我们发力的地方。因为通过Monitor没法直接Control,所以它们之间需要通过“析”(Analysis)进行连接,只有对Monitor来的数据进行了Analysis,才能有的放矢的进行Control,所以“析”也是我们要加强和继续发力的地方。

        监、析、控是三个点,每个点都对应相应的产品,每个产品的目标是什么呢?“监”应该“全”,只有全面的收集数据,才能对系统的运行状况了如指掌;“析”需要“快”,只有快速的分析,才能高效的做出决策;“控”务必“准”,只有准确的控,才能立竿见影的解决问题。继续提升认知可以发现,监、析、控三个“点”两两之间不是孤立的,是互为补充、相辅相成的连成“线”,最终作为一个“面”提供一体化解决方案,如下图所示:

特来电自动运维应用实践

 

 

        如前所述,“控”是监控整体解决方案要发力的地方,那么怎么控,如何控,我们认为控就是要在运维(自动运维、智能运维)上做文章。

2.认知运维

        一提起运维,第一种认知认为这是一个很苦B的工种,比如“锄禾日当午,不如运维苦。对着破电脑,一调一下午”。其实运维能干的事情很多,遇到故障时,他们不只会重启机器,还会冲上去救火,退回来时背锅。不仅如此,运维对待自己的伴侣—机器,无论被欺负多少次,总是表现出好男人的本色:机器虐我千百遍,我待机器如初恋。总之一句话:运维不易,且运且珍惜。

特来电云平台运维是一种云上运维,整个运维体系分为两个层面(系统运维、应用运维)、四个维度(质量、安全、效率、运营),整体功能架构如下图所示:

 

特来电自动运维应用实践

 

        质量管理其实就是DevOps,运维要追求系统稳定,但稳定是果不是因,质量才是因,只有质量管理抓好了,才能够促进系统稳定;安全管理是系统的外衣,只有安全做到位了,系统才不会裸奔;效率体现在自动运维和智能运维,运维工作只有做到了自动化与智能化,才能将运维人员从重复工作中解放出来,做更有价值的事情;质量、安全、效率做到位了,进行高层次、全方位的运营分析才会有保障。因此针对运维的认知是:抓质量、促稳定,提效率、保安全,全自动、精运营。

如前所述,特来电云平台运维分为两个层面(系统运维、应用运维),下面我们看下如何在应用层面,实现“控”的第一阶段:自动运维。

二、自动运维

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zywfsp.html