解放运维的双手,谈自动化运维管理平台设计

战学超,青航数据架构师。曾任职于NEC软件、海尔B2B平台巨商汇,负责企业数据平台构建、B2B电商平台数据管理与搭建。拥有丰富DBA、系统运维架构经验,擅长数据库、数据平台搭建、私有云部署、自动化运维等。

最近一段时间,一直在做和运维、数据库相关的工作,也算是完成了从开发向运维的转变。这半年来的研究基本完成了运维管理平台的初版架构,这里写出来跟大家一起讨论交流,以便更好地完成运维工作,摆脱重复运维劳动,尽快转向自动化运维和云服务这一方向,彻底解放劳动力,实现高效的服务IT。

总体架构

首先是总体架构图:

解放运维的双手,谈自动化运维管理平台设计

可以看出内容相对还是比较简陋一些,期望能够在大家的帮助下,丰富完善起来。

我主要分为以下几个部分跟大家介绍:

基础数据

监控模块,监控管理平台

灾备管理平台

安全模块,安全管理平台

自动化运维平台

虚拟化与私有云

运维管理页面

本文主要对运维管理平台的这几个模块做一个简单介绍,同时综合了我们平常运维遇到过的一些问题,计划优先完成的模块。具体如下:

解放运维的双手,谈自动化运维管理平台设计

1基础数据和监控优先

做运维管理平台一般会有一个优先度,因为很少有公司有充足的运维开发人力一下子同时开展好几个模块。按照优先级快速迭代,永远是解决IT与业务部门矛盾的银弹。本人一直也在纠结建立运维平台的模块的优先级排序。经过三思还是决定首先完成基础数据的收集,这里的收集的目的是为了接下来要完成的监控平台的建立。说到底第一步是监控,前提是收集好基础数据。

为什么要这样?首先建立起监控平台,实现主动监控我们的业务系统、服务器、网络的情况、出现问题,从而可以第一时间收到告警,这样在面对IT故障的时候,可以在与业务部门沟通中占据优先权,而非等业务投诉了,才知道系统出现故障。

很多公司可能没有运维开发的能力,此时利用Excel管理基础数据,Zabbix or其它做监控,也是可以很快构建出基础监控平台来监控IT系统。

2灾备紧跟

做好数据采集与监控之后,接下来就要考虑做全局备份。完整、可用的备份集是保障企业数据不丢或是最少丢失的最后一道保障。如何做好备份策略,备份集如何验证,都必须要提前做好准备和计划。

2自动化运维与安全并行

在完成了监控和灾备之后,运维的冗余工作量会得到一定的减少。接下来可以进行自动化的运维工作,例如自动装机,自动部署服务,利用自动化运维将日常的重复工作让系统完成,大大解放运维的劳动力。让运维可以有更多的时间和精力保障整个IT系统的安全、稳定和高效。

要完成自动运维的搭建,或是在构思自动化运维平台时,有一个工作不得不做,那就是:运维标准化和运维流程化。系统安装版本、JDK、Tomcat部署版本、位置等等,只要提前做好了标准化,才能利用自动化运维工具完成运维的自动化。

运维的流程化是指涉及到某一运维主题如应用发布,每一步该如何操作,涉及哪些运维节点,先后顺序等。明确的运维流程,可以有条不紊地保障系统的更新和发布。规范化、流程化的运维操作可以减少运维过程中的失误,也可以在出现问题的时候,迅速找到问题节点,迅速恢复。

安全一直是一个相对忽略的话题。网络安全、系统安全、应用安全、数据库安全等,一旦任何一个节点出现安全漏洞或是故障,都将会给系统带来毁灭性的灾难。安全并不是购买了商业设备之后,就可以高枕无忧。不断学习,不断研究系统的漏洞,最大程度地结合自身的专业深度和安全设备,为整个IT系统筑一道厚重的高墙。

4虚拟化和私有云

虚拟化和私有云的搭建的最大目的是为了节省公司的IT成本。当然也有很多其他优点,例如做虚拟机层面的热备,利用私有云服务快速地搭建需要的服务等。虚拟化和私有云是未来运维的一个方向,一定要把握好时机。给老板省钱,便是跟老板要钱的最佳理由。

5运维管理集成平台

在完成了基础数据采集、CMDB建立、监控平台、灾备、运维自动化、虚拟化和私有云之后,我们需要一套IT系统来集成各个模块,统一管理,这便是我们的运维管理平台。

后面将围绕上面几个部分做一个简单的概述,简单概述之后,会陆续推出各个模块的建设心得,技术方案和踩过的坑等,敬请期待。

基础数据

巧妇难为无米之炊,基础数据便是我们运维管理平台的米。基础数据方面主要分一下几个部分:

解放运维的双手,谈自动化运维管理平台设计

1CMDB

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzwxff.html