华为刘腾:华为终端云Cassandra运维实践分享

点击此处观看完整活动视频

 

各位线上的嘉宾朋友大家好,我是来自华为消费者BG云服务部的刘腾,我今天给大家分享的主题是华为终端云Cassandra运维实践。和前面王峰老师提到的Cassandra在360中使用场景不同,我今天主要带来的是运维相关的内容。在去年7月,我们开发部的吴太银也在Cassandra社区做过一次分享,讲到了Cassandra在华为的一些应用,包括一些在华为遇到一些线上问题的定位和处理经验。今天我就和大家讲一下运维这一块。

 

华为刘腾:华为终端云Cassandra运维实践分享


这是我今天要分享的内容,重点是第二部分:我们在运维中遇到的一些问题。

华为刘腾:华为终端云Cassandra运维实践分享

华为终端云Cassandra使用场景和规模介绍

我们首先介绍下华为终端云在Cassandra使用的情况,华为在2014年的时候开始使用Cassandra,这在国内也是相对比较早的。现在经过6年的发展,我们达到了比较大的应用规模,全球节点已经超过3万,总存储量超过20PB,还有最大的这个表记录三千亿以上,这个量都是比较大的。


至于为什么华为终端云大量地使用Cassandra,这主要归功于Cassandra本身的一些数据库优势,比如它高可用、极致在线(应用无感)、可调一致性、多DC(datacenter)部署的特性。此外对运维方面也是很友好的,还有一些运维的工具等等。因此Cassandra在华为终端云这一块应用的是比较多的。


我们主要将Cassandra用在一些结构化的数据存储,像我们的社交风控、IoT等场景都用到了。现在我们也有多个版本,最早的时候我们用的是Cassandra 2.x的版本。这是我们华为终端云的一个使用情况。

华为刘腾:华为终端云Cassandra运维实践分享



华为刘腾:华为终端云Cassandra运维实践分享

运维面临的主要挑战

我们在终端云这一块业务发展的这么快,Cassandra规模这么大,我们难免也会遇到一些问题,主要体现在以下这四个方面。


可靠性:早期我们是IDC机房,这种自建的托管的机房。我们需要维护这些硬件设备、处理硬盘损坏的这些问题。还要考虑到机房AZ级的这种故障,或数据一致性、备份的问题。然后在使用上,现网还会碰到Cassandra的一些本身的问题,像是大Key和热Key的问题。

数据库问题和风险管理:在日常的一些变更管理的问题尤其是一些高危操作。

资源和成本管理:此外是资源成本这一块。我们有这么多节点,如何管理是个问题。

运维效率: 我们人数有限(2~3)人,那如何提高运维效率。 

 

我会主要围绕以上这些话题来讲,当遇到这些问题时我们华为终端云是如何做的。



华为刘腾:华为终端云Cassandra运维实践分享



华为终端云Cassandra运维体系介绍

其实整体也是一个过程,我们一开始也是慢慢地摸索过来的。然后我们才有一些比较规范的运维流程,因为运维还是很注重流程的,就是按流程去正确的做事,所以流程很重要,我们包括一些变更流程、问题处理流程等等。大家也都听说过,华为公司本身就很注重流程的规范性、流程的建设。


我们自己经过这几年的发展,把平台也建起来了,但我们依托一些大平台, 比如说监控的,包括部署和自动发布的这种平台。还有我们自己专门开发的Cassandra运维管理的平台,像一些做数据库自动化变更的平台。我们会在后面重点介绍在可靠性、风险管理、运维效率等方面的挑战。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpgjjx.html