这个架构通常用于大型企业和科技公司,用来满足复杂的数据需求场景。
应用场景包括:BI及高级功能,包括AI/ML,低延时分析,大规模数据转换,多类型的数据处理(文字,图像和视频)使用各种语言(JAVA/SCALA,Python和SQL)
优势:能灵活的支持各种应用,工具和UDF和部署环境。在大规模数据集上的成本优势。
缺陷:不适合小型数据团队,维护这套架构需要较多的时间,费用和专家资源投入。
在现实世界中,需求侧觉醒的同时,在平行的赛博世界中,技术的进化也一直在持续。自从2006年Apache Hadoop架构发布以来,到2011年,企业逐渐采用Hadoop架构演进出来的开源或商用大数据软件,开启了离线计算时代;2012年,以Spark等为核心的流式计算开启了实时计算时代,在线分析和实时计算的场景也开始逐渐应用,但这一阶段的使用者主要是开发人员;2013年至今,随着数据的激增,大数据平台演进成了融合大数据平台,而随着AI等技术的突飞猛进,从数据分析到数据挖掘,大数据平台向着智能化进行演进。
权威调研机构IDC表示,“数字化时代下的竞争正在加速,市场参与者要么通过数字化转型成为领头企业形成规模化优势,要么将逐渐被市场淘汰”。随着5G、AI、IoT等技术的迅猛发展,到2025年,全球数据量将从2018年的33ZB快速增长到180ZB,全球数字经济总量将达25万亿,CEO也越来越重视,参与度高达67%,数字化技术让投资回报率达到6.7倍,政企数字化进程为64%。综上可知,数字化转型是政企充分释放复杂场景用数需求的必经之路。
数字底座如此关键,那么大数据作为主要承载技术,自然是其重中之重。华为云FusionInsight提供MRS数据湖服务,让政企客户在一个大、快、融、稳的云原生数据湖架构下持续演进:
1)大:支持最大2万+节点大规模集群,可集群联邦无限扩容;
2)快:可T+0实时增量更新同步,可毫秒级高效实时OLAP,缩短分析链路,实现实时数据湖;
3)融:通过HetuEngine打破多引擎、多源、跨地域的限制,消除数据孤岛,统一SQL接口融合分析,简化用数,全民BI;
4)稳:支持在线滚动升级,无需拆集群、搬应用,使客户一个架构持续演进,十年无忧!
5)云原生数据湖:通过统一元数据,让数据全局可视;通过存算分离的企业级EC,降低TCO。
华为云大数据,自2008 年开始投入研究,最早于2014年推出商用产品,秉承开源开放的心态,践行“平台+生态”战略,华为云踩对了历史的进程,围绕政企大数据全生命周期,华为云FusionInsight是一个技术领先的云原生智能数据湖,是华为云三大使能之数据使能方案的坚实数据底座。
3. 人工智能和机器学习架构应用机器学习的公司已经在使用这套架构的一部分技术。深度使用机器学习的企业会部署整套架构,甚至自研新的工具。
场景:数据驱动的内外部应用程序,场景有实时的或批处理的。
优势:完全掌控整体的开发过程,将机器学习打造为企业核心且长期的能力。
缺陷:不适合尚在探索机器学习,只为小范围的内部应用场景。大规模应用机器学习仍是当前最大的数据挑战
华为云ModelArts为政企客户提供一站式的AI训练和推理平台,其具有如下特点:
支持AI全栈、全流程、全场景开发训练
支持资源统一管理、统一池化调度
支持业界主流引擎和自研引擎,实现零成本迁移
提供多维度功能特性,满足各类用户