华为云FusionInsight湖仓一体解决方案的前世今生 (3)

日期：2021-06-15 栏目：程序人生浏览：次

自研Superior调度器支持单集群2万+节点规模，业界最佳：在一个集群内，通过华为自研的Superior调度器支持各种工作负载统一调度，包括数据科学、机器学习以及SQL和分析，调度速率达35万Container/s，资源利用率达90%+，大幅降低企业投入成本。

数据冷热分级存储实现更高效的全生命周期管理：DWS具备与OBS的双向互通的能力，既能直接读取OBS上的海量历史数据，也能够直接写入数据到OBS。通过这个特性，我们可以对企业中的海量数据进行更加高效的全生命周期管理，分析中经常使用到的热/温数据存放在DWS中，较少使用的冷数据存放到OBS中，兼顾企业对分析性能和存储经济性的诉求。

无缝衔接AI挖掘更多数据价值：深度优化一站式开发平台ModelArts&分布式图计算引擎GES提高开发效率。提供基于数据湖的AI训练推理能力，减少数据搬迁次数，基于100+机器学习算子和NLP算法，实现海量数据快速价值挖掘，满足场景预测、自然语言处理及企业知识图谱等应用；让GES更快捷地为金融等场景提供关系网络分析等服务。

运营管理层：通过DAYU实现了湖&仓统一的数据集成、开发、目录、治理、开放服务等的运营管理：

数据集成：实现多源异构数据高效入湖，支持批/流/实时数据多种方式接入。其中，批量数据迁移基于分布式计算框架，利用并行化处理技术，支持用户稳定高效地对海量数据进行移动，实现不停服数据迁移，快速构建所需的数据架构；流和实时数据接入每小时可从数十万种数据源（例如日志和定位追踪事件、网站点击流、社交媒体源等）中连续捕获、传送和存储数TB数据。

数据开发：提供一站式敏捷数据开发平台，提供可视化的图形开发界面、丰富的数据开发类型（脚本开发和作业开发）、全托管的作业调度和运维监控能力，内置行业数据处理pipeline，一键式开发，全流程可视化，支持多人在线协同开发，支持管理多种大数据云服务，极大地降低了用户使用大数据的门槛，帮助用户快速构建数据湖数据处理中心。

数据治理：为企业提供数据体系标准和数据规范定义的方法论，统一数据语言和数据建模；为普通业务人员提供高效、准确的数据搜索工具，高效找到数据；提供技术元数据与业务元数据的关联，业务人员快速读懂数据；为数据提供有效的质量管控和评估手段，数据可信质量高。

数据开放：为数据湖搭建统一的数据服务总线，帮助企业统一管理对内对外的API服务，支撑业务主题/画像/指标的访问、查询和检索，提升数据消费体验和效率；支持100+开放API，拥有10+行业模板，使能行业ISV快速集成，助力客户数据标准资产沉淀。

综上所述，正是在三层架构都打通了湖仓的技术壁垒，我们才看到了真正的湖仓一体：

数据存储层基于云原生领先架构，存算分离有效降低TCO，统一元数据管理实现湖仓共享存储资源池，针对同一份元数据定义支持各种场景，提供API方便各类工具和引擎（包括机器学习、Python、R等）直接有效地访问数据，这是实现湖仓一体的一个关键点；

计算引擎层为数据湖增加了事务能力提升了数据质量；利用HetuEngine通过标准SQL访问跨域多源数据，实现湖&仓数据关联分析协同计算，简单易用; 打破数据墙，在湖内基于统一数据目录，可基于数据湖实现融合分析&AI训练推理，减少数据搬迁，实现海量数据快速价值挖掘。

运营管理层则提供统一的数据开发和治理环境，具备安全管理功能，支持多引擎任务统一开发和编排，数据统一建模和质量监测，实现湖仓一致的开发治理体验。

未来展望

华为云FusionInsight智能数据湖基于客户需求和技术演进趋势持续创新，为企业客户提供湖仓一体解决方案，致力于打造业界最佳的数据底座，让企业业务的创新更敏捷，业务洞察更准确，加速释放数据价值，和数据使能协同更好地服务千行万业！

转载注明出处：https://www.heiqu.com/zyyjsf.html

华为云FusionInsight湖仓一体解决方案的前世今生 (3)

相关推荐