简介: 2021年5月20日,据国际事务处理性能委员会(TPC,Transaction Processing Performance Council)官网披露,蚂蚁集团自主研发的分布式关系型数据库OceanBase在数据分析型基准测试(TPC-H)中,以1526万QphH的性能总分创造了新的世界纪录。同时,OceanBase也成为唯一在事务处理和数据分析两个领域测试中都获得过世界第一的中国自研数据库。
作者 | 陈萌萌
来源 | 阿里技术公众号
2021年5月20日,据国际事务处理性能委员会(TPC,Transaction Processing Performance Council)官网披露,蚂蚁集团自主研发的分布式关系型数据库OceanBase在数据分析型基准测试(TPC-H)中,以1526万QphH的性能总分创造了新的世界纪录。
同时,OceanBase也成为唯一在事务处理和数据分析两个领域测试中都获得过世界第一的中国自研数据库。
我们特别邀请到OceanBase负责此次测试的核心成员陈萌萌撰文,讲述背后的技术思考。
以下为陈萌萌的自述。
收到期盼了好几天的审计员最终邮件,告知测试结果已经挂到了官方网站。这意味着,测试小组的工作可以正式告一段落。接下来的60天,此次测试的报告将处于公示阶段,迎接全世界数据库专家的检视和挑战。
对我个人来说,原本期待的兴奋感没有如期而至。更多的是平静。平静地把官网上的测试报告又从头到尾读了一遍。按说,前前后后来来回回几十封邮件的技术沟通,报告里面的内容已经烂熟。再读一次,既是出于技术人天生的谨慎,更是不想因为一个低级错误而让项目所有同学三个月的心血付诸东流。
关于为什么要冲击此次的榜单?简单来说,是因为今天的OceanBase已经升级为一款支持 HTAP 混合负载的企业级分布式数据库,同时具备事务处理和数据分析两类场景的处理能力。我们希望市场对我们有更多了解。权威中立机构的背书总好过“王婆卖瓜自卖自夸”。此外,从技术上说,这也是一件水到渠成的事情。只是,这个时间点跟OceanBase对数据库的理解,以及未来想做的事情有密切关系。
一 HTAP,既是数据库的初心,也是数据库的未来HTAP数据库(Hybrid Transaction and Analytical Processing,混合事务和分析处理)就是能够将事务处理(On-Line Transactional Processing,以下简称TP) 和数据分析 (On-Line Analytical Processing,以下简称AP) 请求在同一个数据库系统中完成。
这个概念,由Gartner在2014年的一份报告中提出。分析师认为,这种架构具有显而易见的优势:不但避免了繁琐且昂贵的ETL操作,而且可以更快地对最新数据进行分析。这种快速分析数据的能力将成为未来企业的核心竞争力之一。
关系型数据库的英文缩写是RDBMS,其中的M就是“管理”的意思,不管是TP还是AP,数据库的存在就是为了“管理”数据,我认为这是数据库这个系统的初心。
天下大事,分久必合,合久必分。HTAP本来也不能算是新概念。TP和AP这两种需求在数据库的发展上已经历了漫长的混合-分离-再融合过程。
上世纪70年代末到90年代初是数据库从理论到实践逐渐成熟的黄金时代。1970年,IBM的E. F. Codd提出了“关系型数据库”的概念。1974年,IBM着手研发System R数据库,极大地推动了关系型数据库概念的发展,并采用SQL作为标准的数据库语言。
70年代末到80年代初,有“数据库先生”之称的图灵奖获得者Jim Gray奠定了事务处理的理论基础。同一时期,System R系统的实现也催生了查询优化技术。Selinger等人发表的“Access Path Selection in a Relational Database Management System”论文则被认为是基于代价的查询优化技术的开山之作。1988年,IBM的Barry Devlin和Paul Murphy提出了专门用来做数据分析的“数据仓库”(以下简称“数仓”)概念。1993年,E. F. Codd仿照“On-line Transaction Processing”的结构首次提出了“On-line Analytical Processing”的概念,一下子把数据分析的抽象和应用提升到了一个新的层面。可以说,在数据库远古大神一个个涌现的年代,TP和AP两种场景就像一对被他们细心呵护的孪生兄弟茁壮地成长着。
随着数据库使用场景的日益丰富,TP和AP需求的矛盾逐渐显露。单机数据库的处理能力毕竟有限,分布式数据库的理论开始出现,工程实践也遇到很多问题。