如何运营亿级QPS的Redis系统 (2)

自动化调度系统:对于按事件和时间调度系统异常时触发的告警,第一是按时间调度,比如每周三下午3点重启一个服务,通过时间来触发。第二是按事件调度,我们把每一种告警,都作为一种事件,注册到调度系统中。调度系统捕获到事件后,可以调用作业平台的任务或者流程去完成一些工作,这就形成一个运维的闭环。

决策系统:在处理一个事情之前,我们还需要获取各种信息,如何根据信息做决策?一个决策系统,先发起决策请求,过程中可能会涉及到一些决策树,或者AI决策等,根据决策的结果,再确定调哪些作业流程,或者是否调作业流程。

img

img

img

img

总结运营之道 运维成熟度的衡量

运维成熟度在腾讯云的成熟度衡量:从比较原始的方式,到实现一些标准的工具。再到可视化、流程化、平台化,以及实现能基于时间与事件触发的自动调度平台,实现全自动化的运维闭环。智能化解读,通过机器学习,深度学习的方法能帮助我们更好地做一些决策,比如说数据库自动调参,智能分析实现数据的冷热沉降;最后,通过业务画像,数据分析,成本优化等为业务带来更多的价值。

总结:技术支持业务,技术推动业务,技术引领业务。

img

云时代下对DBA的全面要求

云时代下,DBA应该对自身能力提出更高更全面的要求。我们不但要保证系统高效稳定,协助好使用者,还要在产品打造方向、架构设计的细节上,组件的源码,社区的跟进甚至是引领,我们都需要有自己的积累与影响力。

我们既是运维,也是开发,也是产品。这也是云时代下,服务化、DO合一的一个趋势!

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpffpg.html