AI加持的阿里云飞天大数据平台技术揭秘 (4)

AI加持的阿里云飞天大数据平台技术揭秘

如图所示,业界有一个比较火的概念叫数据湖,我们要把客户多种多样的数据拿到一起来进行统一的查询和管理。但是对于真正的企业级服务实践,我们看到一些问题,首先数据的来源对于客户来说是不可控的,也是多种多样的,而且很大程度上没有办法把所有的数据统一用一种系统和引擎来管理起来,在这种情况下我们需要更大的能力是什么呢?我们今天通过不同的数据源,可以进行统一的计算和统一的查询和分析,统一的管理,所以我们提出一个更新的概念叫逻辑数据湖,对于用户来说,不需要把他的数据进行物理上的搬迁,但是我们一样能够进行联邦计算和查询,这就是我们讲的逻辑数据湖的核心理念。

为了支撑这件事情,我们会有统一的元数据管理系统和调度系统,能够让不同的计算引擎协同起来工作,最后把所有的工作汇聚到全域数据治理上面,并且提供给数据开发者一个编程平台,让他能够直接的产生数据,或者是去定制自己的应用。那么,通过这样的方式,我们把原来的单维度大数据平台去做大数据处理,拓展到一个全域的数据治理,这个数据其实可以包含简单的大数据的,也可以包含数据库的,甚至是一些OSS的file,这些我们在整个的平台里面都会加以处理。

AI加持的阿里云飞天大数据平台技术揭秘

如图为飞天大数据的产品架构,下面是存储计算引擎,可以看到我们除了计算引擎自带的存储之外还有其它开放的OSS,还有IOT端采集的数据和数据库的数据,所有数据进行全域数据集成,集成后进行统一的元数据管理,统一的混合任务调度,再往上是开发层和数据综合治理层,通过这种方式,我们立体化的把整个大数据圈起来管理。

大数据与AI 双生系统

提到了大数据我们肯定会想到AI,AI和大数据是双生的,对于AI来说它是需要大数据来empower的,也就说bigdata for AI。下面可以通过一个demo来看我们怎么来做这件事情。对于AI的开发工程师来说,他们比较常用的方式是用交互式的notebook来进行AI的开发,因为它比较直观,但是如何把大数据也进行交互式开发,并且和AI来绑定,下面来看一下这个简单的例子。

AI加持的阿里云飞天大数据平台技术揭秘

如图是我们DSW的平台,我们可以直接的用一个magic命令,connect到现存的maxcompute集群,并且选择project后,可以直接输入sql语句,这些都是智能的。然后我们去执行,结果出来之后我们可以对feature进行相应的分析,包括可以去改变这些feature的横纵坐标做出不同的charts,同时我们甚至可以把生成的结果直接web到excel方式进行编辑和处理,处理完之后我们再把数据拉回来,也可以切换到GPU或者CPU进行深度学习和训练,训练完了之后,我们会把整个的代码变成一个模型,我们会把这个模型导入到一个相应的地方之后提供一个Web服务,这个服务也就是我们的在线推理服务。整套流程做完之后,甚至我们可以再接数据应用,可以在托管的WEB上构建,这就是大数据平台给AI提供数据和算力。

AI加持的阿里云飞天大数据平台技术揭秘

大数据和AI是双生系统,AI是一个工具层,可以优化所有的事情。我们希望飞天的大数据平台能够赋能给AI。我们在最开始的时候希望build一个可用的系统,能够面临双11的弹性负载仍然是可用的。通过这些年的努力,我们追求极致的性能,我们能够打破数据的增长和成本增长的线性关系,我们也希望它是一个智能的,我们希望更多的数据开发工程师来支持它,我们需要更复杂的人力投入来理解他,我们希望有更强的大数据来优化大数据系统。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzdsyz.html