在这两年时间,NOS服务普遍做到了3个9,甚至4个9以上的可用率。在2016年上半年,NOS系统达到了5个9的可用率,唯一发生的故障为线上数据库服务器故障,自动化脚本在3分钟的时间内自动完成故障探测和备份节点切换,实际造成的影响不到3分钟。期间伴随着诸多新功能的上线和构架调整,如图3所示,2016上半年,NOS组件数量到达41个,版本发布多达42次,涉及15个功能组件,上线次数30次(不包含灰度发布),每周都要进行好几次上线,开发语言包括Java、C++、Golang、Python、Objective-C等。
图3 2016年上半年的NOS
同时相比于2015年底,2016年上半年新增存储容量达到历史总量的70%,系统压力增加50%,系统的横向水平扩展能力很好地满足了业务快速增长的需求。据不完全统计,NOS当前为网易负载数一数二的大系统。
在产品推广使用上面,2014~2016年 NOS发展迅速,成为网易内部及合作伙伴云存储产品的首选。图4列举了当前使用NOS的一些产品。NOS提供的非结构化数据解决方案为大型互联网、社交通信、电商、移动、支付理财、SaaS等诸多领域的产品提供了稳定的服务。
图4 使用NOS的网易产品
回过头来我们来回答“NOS如何在大大小小的关节点和振荡期持续对外稳定输出服务,维持高水准的稳定性和可用性?”这个问题。在将近5年的时间内,NOS团队基于无数次的讨论、实践和血泪教训,不断总结和完善“NOS稳定保障流程体系”。
简而言之,我们从定义、规划、实施、测试、上线、运维、事故等7个大方面“确保提早发现问题,缩小问题产生的代价,快速进行恢复,从而最大限度减小损失”,如图5所示。
图5 NOS稳定保障流程体系
流程看起来很重,其实并不是所有大小功能的上线工作都需要全面执行该流程,但是关键的流程都要覆盖到,大型架构的改动则会严格执行完整的流程。客观现实要求团队必须如履薄冰,一步一个脚印踏踏实实,用完善的流程来避免人为引入的不可靠因素,因为NOS云存储服务是给大量产品提供7×24小时在线服务,出问题的代价太沉重。
当然,NOS云服务的快速健康发展,原因有很多,除了提供了“稳定的基础服务”,我们还提供了“贴近用户的增值服务(如丰富的图片和音视频服务、直传加速服务)”和“口碑坚挺的技术支持(开发会投入1/3时间接待客户,帮助客户更快更好地使用NOS)”。稳定是基石,增值服务能吸引更多的用户,口碑坚挺的技术支持更帮助产品团队实现客户留存和良好口碑传播。NOS通过这三方面更好地支撑各个产品稳定服务,从而反过来促使NOS产品自身不断发展壮大。
四、星辰大海
数据存储是企业持续发展不可或缺的土壤,并且企业对数据存储的需求会越来越多,量也会越来越大。NOS团队会一直致力于打造一流的存储服务以及基于存储的富媒体和上下行加速服务,一站式解决非结构化数据管理难题,助力产品方实现最佳用户体验。
图6 NOS的定位
2016年,网易公有云计划正式启动,NOS和所有的其它网易云产品一样,踏上了新的征程,将19年的技术积累全面开放,赋能给所有IT企业,为企业用户插上一双网易云的翅膀,共同创造美好的未来。
图7 截至目前的网易云产品矩阵
——孙建良
网易杭州研究院云计算平台产品部
网易云计算基础服务为您提供对象存储、容器服务等服务,欢迎点击免费试用。