【分享】腾讯蓝鲸体系架构及设计思想

党受辉(咖啡党)
    腾讯游戏 蓝鲸产品中心总监
    目前负责腾讯游戏运维支撑体系(蓝鲸)的建设和运营,致力于打造行业级的基础运维无人值守解决方案,以及数据化增值运维解决方案,推动devops生态。
    十余年来专注行业信息化及运维领域,做过多年运维团队管理,期间为不同类型的游戏及千万PCU级游戏平台设计过自动化运营系统。

引子

最近,在运维圈里看到触控科技的萧总提出的一个概念“运维2.0”,学习之后,感触颇多,和几年前腾讯游戏的应用运维团队发起的“运维转型”战略项目神似,那个项目在数年间几乎重塑了“应用运维”在腾讯游戏的定义,而在过程中带动并承载这次转型的具体实现,叫蓝鲸。

蓝鲸是腾讯游戏应用运维(ARE)技术生态体系的代号,由正在逐步产品化的六大运维平台和众多应用运维(含devops)、运营规划等人员构成。

在应用运维这一领域,蓝鲸以“独特”的方式承载着半个腾讯,也承载着国内游戏行业半数份额。

出自应用运维团队的蓝鲸体系,最初的设计理念,是希望能武装运维,使其可以提供更高维度的服务。例如,为产品、策划、运营等岗位提供:

自助化的运营工具;

数据化决策支持;

直接的用户体验改善等。

本文尝试以半叙事的方式,概述蓝鲸出现的背景,设计理念,和落地方式,希望业界广大应用运维同行们,在我们的发展历程中能找到自己现阶段的影子,共鸣共勉,共同努力,繁荣应用运维生态。

1. 蓝鲸的背景:运维转型

十年前,我们的业务运维忙于这些工作:服务器、网络、OS、DB、发布、变更、监控、故障处理、运营环境信息维护提取等等。

这些工作大多是被动的,或者说是“需求驱动型的“,运维大多数时候在被动的为产品、策划、运营、开发等合作岗位的同学提供操作服务,而且很多是重复性的操作服务。五年前,我们的一个运维小组发起了转型尝试,目标是使我们的运维团队从“操作服务输出”,转型为“解决方案服务输出”。三年前,也就是2012年,依据这个先行试点团队的效果评估,整个腾讯游戏的十余个运维团队(目前200+运维)走上了艰难的转型之路,作为落地承载方案的蓝鲸体系同时开始构建。
当年促使我们决心转型的原因,可以归结为以下三点:

原因1:业务红海化

行业竞争很激烈,精细化运营越来越重要。产品和运营人员忙于更贴近用户体验的业务设计和运营设计,开发团队忙于更快更可靠的实现,运维团队则希望为用户提供更高的可用性,不论是刮风下雨,还是发布变更,都能将业务可用性保持在无限接近7*24(此处省略几万字)。
在此之上,还需要能为产品策划运营等其它岗位提供各类运营工具以提高“产品运营”的效率(一直以来,腾讯运维的职能在内部被定义为“技术运营”,所有运维们所在的职级通道就叫做“技术运营通道”),甚至能为运营决策提供准确的数据依据。

【分享】腾讯蓝鲸体系架构及设计思想



原因2:“传统运维”生存空间塌缩

几年前我们预感到“传统运维”的职能空间会被逐步压缩:
    比如一些新技术对运维的传统工作会有一些冲击(此处省略几万字),这一点到今天已经不用再展开说了,近一年运维领域各类危机言论开始满天飞了。
    再比如开发团队出于追求更高可用性等原因,在运维不给力的情况下会直接涉足精细化运营领域。虽然我们认为运维始终是不可或缺的,但也不得不承认传统运维的需求量会有一定的减少,岗位的萎缩对所有从业者都不是好消息,出于自救我们也要尝试转型。

原因3:我们太累了

那些年,腾讯游戏疯狂的增长,如果不转型,别提什么辅助决策这样的高级玩意儿,就是发布变更、故障处理之类的运维基础工作都会把我们拖死。

【分享】腾讯蓝鲸体系架构及设计思想



因此,运维转型的长远目标可以归结为:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwsfzz.html