最后,我们2020年经历了全球的疫情,这对线上的应用确实是爆发式的增长。对于Cassandra来说是有很多机会的,实际上我们华为终端有很多应用是可以用Cassandra的。比如一些原来用Redis的可以切换到Cassandra,这对Cassandra来说都是一些机会。
答:其实这是一个可靠性和成本之间的取舍。得根据业务场景来看,我们有一些业务它数据是核心数据,那它也愿意多出一些成本。比如说它的副本可以为三甚至达到AZ级容灾。同城双活的话,那就是6个副本。
如果对于数据可靠性要求不是特别高,三副本其实可以解决大部分的问题。甚至有一些用OLAP的场景有的我们有离线的数据,用两个副本也是ok的,要根据业务的实际场景来。
答:这个问题我觉得提的很好,我们原来一些大集群,在面对前面的大数据修复时,它要面临几个问题。第一个它的修复周期特别长,还有一个就是我们对现网的影响。你修复时要控制住,不能让它有对现网产生影响。需要控制修复的并发,包括token段的切分,要切的足够小。
问:自动化C*集群运维的挑战在哪里?有哪些技术和工具可以参考?
答:其实运维这一块,我们前面其实也提到了,之前介绍了一些我们主要遇到的问题。自动化运维的话,我们有做一些自动发布和自动部署,这可以提升一些效率。也包括监控这一块,我们讲了一些多维度的监控,还有巡检。
监控的工具方面,一开始我们有用OpsCenter,开源的像是Zabbix和Prometheus这些。用于定位问题的像是自带的nodetool,有很多命令,对于日常运维效率是很有帮助的,我建议大家都去了解一下。