ETL的基础知识，看完你就全明白了！

日期：2021-12-13 栏目：程序人生浏览：次

ETL基础概念 ETL基础概念 - 背景

随着企业的发展，各业务线、产品线、部门都会承建各种信息化系统方便开展自己的业务。随着信息化建设的不断深入，由于业务系统之间各自为政、相互独立造成的数据孤岛”现象尤为普遍，业务不集成、流程不互通、数据不共享。这给企业进行数据的分析利用、报表开发、分析挖掘等带来了巨大困难。

在这里插入图片描述

在此情况下，为了实现企业全局数据的系统化运作管理（信息孤岛、数据统计、数据分析、数据挖掘），为DSS（决策支持系统）、BI（商务智能）、经营分析系统等深度开发应用奠定基础，挖掘数据价值，企业会开始着手建立数据仓库，数据中台。将相互分离的业务系统的数据源整合在一起，建立一个统一的数据采集、处理、存储、分发、共享中心。

在这里插入图片描述

在BI项目中ETL会花掉整个项目至少1/3的时间，ETL设计的好坏直接关接到BI项目的成败。

ETL基础概念-定义

ETL是将业务系统的数据经过抽取（Extract）、清洗转换（Transform）之后加载（Load）到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

在这里插入图片描述

ETL基础概念-过程

ETL处理分为五大模块，分别是：数据抽取、数据清洗、库内转换、规则检查、数据加载。各模块可灵活进行组合，形成ETL处理流程。简单介绍一下各个模块之间的主要功能。

数据抽取

确定数据源，需要确定从哪些源系统进行数据抽取

定义数据接口，对每个源文件及系统的每个字段进行详细说明

确定数据抽取的方法：是主动抽取还是由源系统推送？是增量抽取还是全量抽取？是按照每日抽取还是按照每月抽取？

数据清洗与转换

数据清洗
主要将不完整数据、错误数据、重复数据进行处理

数据转换

空值处理：可捕获字段空值，进行加载或替换为其他含义数据，或数据分流问题库

数据标准：统一元数据、统一标准字段、统一字段类型定义

数据拆分：依据业务需求做数据拆分，如身份证号，拆分区划、出生日期、性别等

数据验证：时间规则、业务规则、自定义规则

数据替换：对于因业务因素，可实现无效数据、缺失数据的替换

数据关联：关联其他数据或数学，保障数据完整性

数据加载

将数据缓冲区的数据直接加载到数据库对应表中，如果是全量方式则采用LOAD方式，如果是增量则根据业务规则MERGE进数据库

ETL VS ELT

ETL架构按其字面含义理解就是按照E-T-L这个顺序流程进行处理的架构：先抽取、然后转换、完成后加载到目标数据库中。在ETL架构中，数据的流向是从源数据流到ETL工具，ETL工具是一个单独的数据处理引擎，一般会在单独的硬件服务器上，实现所有数据转化的工作，然后将数据加载到目标数据仓库中。如果要增加整个ETL过程的效率，则只能增强ETL工具服务器的配置，优化系统处理流程（一般可调的东西非常少）。

在这里插入图片描述

ELT架构则把“L”这一步工作提前到“T”之前来完成：先抽取、然后加载到目标数据库中、在目标数据库中完成转换操作。在ELT架构中，ELT只负责提供图形化的界面来设计业务规则，数据的整个加工过程都在目标和源的数据库之间流动，ELT协调相关的数据库系统来执行相关的应用，数据加工过程既可以在源数据库端执行，也可以在目标数据仓库端执行（主要取决于系统的架构设计和数据属性）。当ETL过程需要提高效率，则可以通过对相关数据库进行调优，或者改变执行加工的服务器就可以达到。

在这里插入图片描述

大家可以仔细看看上面两种架构图，体会一下他们之间的区别，下面来分析一下他们各自的优点：

ETL架构的优势

可以分担数据库系统的负载（采用单独的硬件服务器）

相对于ELT架构可以实现更为复杂的数据转换逻辑

采用单独的硬件服务器

与底层的数据库存储无关

ELT架构的优势

充分利用数据库引擎来实现的可扩展性

可以保持所有的数据始终在数据库当中，避免数据的加载和导出，从而保证效率，提高系统的可监控性

可以根据数据的分布情况进行并行处理优化，并可以利用数据库的固有功能优化磁盘I/O

通过对相关数据库进行性能调优，ELT过程获得3到4倍的效率提升比较容易

ETL 模式介绍

ETL有四种主要实现模式：触发器模式、增量字段、全量同步、日志比对

触发器模式

转载注明出处：https://www.heiqu.com/zwdgpz.html

ETL的基础知识，看完你就全明白了！

相关推荐