(1) 渠道路由重构和优化后提供了根据配比放量的功能和通道故障发送推送消息到各个需要知道通道状态变化的系统;
(2) 监控可以根据通道当前状态和成功率情况,可以主动选择将通道置为故障、开始放量、继续放量、切回故障、置为正常等操作,检测通道是否恢复,以实现支付通道自动管理的功能;
(3) 释放了大量需要处理通道故障的人力资源;
(4) 及时周知到相关系统,降低故障影响,协助业务方系统进行故障分析。
支付通道管理系统在故障处理上的性能对比数据如下:
阶段初级阶段半自动阶段全自动阶段平均故障响应时间 20min 1min 1min
平均人力成本 60min 43min 2min
平均故障恢复延迟 180min 180min 20min
注:
故障响应时间:从通道发生故障到通道被置为不可用的时间;
平均人力成本:故障发生期间需要耗费人力;
平均故障恢复延迟:银行或第三方真正恢复到美团打开通道入口的时间。
支付通道管理系统的演进过程就是一个完整的支付通道自动化管理的实践之路,自动化不仅提升了系统故障处理能力,提升系统可用性,还释放了大量人力。随着支付系统的发展,后续支付通道自动化管理系统还将面临新的问题和挑战。总结实践的过程,主要有以下两点:
监控系统的完善和优化从监控系统从单一的成功率计算到覆盖几乎所有维度,以及后续的与其他系统联动实现支付通道自动化管理的功能,对于维护和提升系统可用性和稳定性起到了非常重要的作用。
渠道路由功能的完善渠道路由提供了通道切走和回切放量功能,与监控系统完美的配合,实现支付通道的自动化管理功能。
目前的支付通道自动化管理还需要在以下四个方面进行优化:
(1) 优化监控算法,将报警准确率95%提升到99%以上;
(2) 故障自动通知到银行或第三方技术人员,完全释放故障处理耗费的人力;
(3) 实现银行和第三方网关网络异常的自动化处理;
(4) 渠道路由的回切放量,优先命中耐受力比较强(统计维度上客诉少)的用户进行成功率探测,以减少对业务的影响。
推荐一个Java架构技术交流群:688583154里面有Java工程化、分布式、微服务、高性能、性能调优、Spring,MyBatis,Netty源码设计模式分析等知识点讲解与IT技术、IT职场、在线课程、学习资源分享等,特别注意:我们是免费分享学习资源,阿里架构师分享知识,多年工作经验的梳理和总结,带着大家全面、科学地建立自己的技术体系和技术认知。进群免费领取以下架构师学习资料: