除了健康指数这样需要系统管理员亲自去查看的被动指标以外,DMS还会进一步提供覆盖全面的告警能力。DMS将从三个层次上提供数据库的告警能力,(1)在dms-agent端,通过日志分析的手段,实时分析dms-agent所处节点上,操作系统以及数据库的日志,当发现威胁关键词后,立刻触发告警,通过相应渠道上报到告警平台;(2)在DMS服务端,因为DMS拥有数据库集群的全部监控数据,通过数据分析手段和数据库专业知识,我们将能设计相应的告警规则,周期性的对数据库集群做检查,发现问题后直接触发告警;(3)对于DMS采集的数据库集群指标数据,能够作为阈值告警的指标,全部对接CES,通过CES服务做阈值告警。以上三种告警的配置和展示都需要在DMS的前端页面上呈现。
人工智能与云计算有的天然的联系,当数据库上云后,人工智能与数据库运维的交叉节点AIOps就顺理成章的出现了。因为DMS拥有数据集群的全部监控数据,因此使用历史监控数据对集群的工作模式做判别,推荐最优化的配置参数;对数据库磁盘的空间增长趋势做预测,提前通知用户扩容或运维需求等等。在人工智能的加持下这一切都变成为可能。
数据库管理员角色(DBA),数据库管理员一直都是数据库的大管家,在传统的数据中心里,他们负责数据库的性能优化,也负责数据库的长稳运行,有时候甚至也要帮助应用开发工程师优化SQL。但是在云时代,数据库管理员的工作分工会变得更精细,应用开发和系统管理员分担了数据库管理的一部分工作,从而使得数据库管理员角色职责变的更纯粹。数据库管理员作为一个数据库领域的专家,他将负责定位数据库问题的根因,以及提供解决问题的方法。系统管理员+数据库管理员两个角色最终就形成了发现问题,分析问题,解决问题的任务闭环。因此,在云上,SRE岗位往往会包含SRE+DBA两个角色的职责。
DBA是一个数据库专家,也是一个使用数据库工具定位各种数据库问题的大师。针对问题根因定位,他将需要故障分析工具和故障自愈工具两类工具。其中,故障分析工具,将会提供各种监控数据和数据的不同可视化形式,为数据库管理员快速定位问题根因提供帮助。故障自愈类工具,则是将数据库管理员过去定位问题,解决问题经验的固化。未来随着我们对DBA工作方法的进一步了解,将会有越来越多的自愈类工具。
数据库管理员另一类重要的职责就是提供故障的解决方案,这一块是运维系统非常重要的一环。再好的故障定位工具,定位到的问题,如果最后没有解决方案,那么最终还是不能真正帮助到用户。因此,我们需要建立一套问题根因-解决方案的专业搜索引擎,帮助用户也是帮助我们加速解决问题的流程,缓解一线客户支持工作人员的工作强度。
本文是介绍云上的数据库监控运维体系设计的核心概念的三篇文章之二,尝试从概念和逻辑上推导了基于用户角色的数据库智能监控系统的可能应用场景。有了这个基本框架,则我们后续所需要做的工作和工具都变得清晰可见。愿我们的期待早日成为显示,让云端的数据库运维工作变得更轻松与智能。
想了解GuassDB(DWS)更多信息,欢迎微信搜索“GaussDB DWS”关注微信公众号,和您分享最新最全的PB级数仓黑科技,后台还可获取众多学习资料哦~