构建数据仓库的核心是建模,在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线。从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,Load)。
通常数据抽取工作分抽取、清洗、转换、装载几个步骤:
抽取主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则。
清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等数据质量问题,允许通过数据抽取设定的数据质量规则,将有问题的记录先剔除出来,根据实际情况调整相应的清洗操作。
转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过ETL工具可视化拖拽操作可以直接使用标准的内置代码片段功能、自定义脚本、函数、存储过程以及其他的扩展方式,实现了各种复杂的转换,并且支持自动分析日志,清楚的监控数据转换的状态并优化分析模型。
装载主要是将经过转换的数据装载到数据仓库里面,可以通过直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。
SEDWA高效数据仓库处理平台为整个 ETL 过程提供了一个可视化的开发,测试,生产环境,它是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和高效数据处理,并将其输出数据仓库或语义模型的数仓高效构建平台。一个功能强大易用的数据仓库构建平台应该具备以下能力:
一. 数据源连接能力:
ETL工具的数据源连接能力是非常重要的,这将直接决定它能够应用的范围。SEDWA能够直接连接非常多的数据源,包括:
1、 文本文件
2、 Excel数据源
3、 主流数据库类型:SQL、MySQL、Oracle、DB2
4、 通用连接器:ADO.NET、OLEDB、ODBC、CDATA
5、 智能适配器:金蝶数据源、用友数据源等行业软件适配
二. 并行运行能力:
SEDWA可以支持并行任务运行能力,执行引擎自动判断任务的先后顺序。机器学习可以自动优化并学习提供最优执行方案。这也是传统的手工编码方式难以做到的。这样,SEDWA就可以充分利用硬件资源。而且,当你的硬件资源升级的时候也不用修改已经开发好的ETL 调度任务,只需要修改执行方案的配置信息。并行执行能力是SEDWA所能处理数据的速度可以得到很大的提升,轻松处理大量数据。
三. 强大易用的开发环境:
SEDWA开发环境是基于 C/S 模式的,构建数据仓库全程可视化拖拽操作。核心功能如下:
1、 多数据源与智能适配
多种数据源一键接入,并提供多种插件帮助您对接最流行的源系统(如国内的金蝶、用友以及各行业业务系统),简单快速方便的获取您想要的数据
2、 团队协作与版本控制
帮助多人在同一个项目上进行协作,另外还加入版本控制,记录项目内的所有对象的状态,在发生错误时快速回滚到之前任何一个版本,极大的提升项目开发进度及有效的管控项目质量
3、 智能引擎与机器学习
内置的智能执行引擎,让您可以获得更快执行速度、更敏捷的项目变更以及最佳的性能,机器学习在每次执行项目时都会进行对象顺序优化分析,确保ETL工作高效运转
4、 增量抽取和历史跟踪
增量抽取和缓慢简渐变作为数据仓库开发最棘手的问题,您只需简单几步操作即可启用,我们利用独特优化模型帮助您快速设置增量抽取规则和创建缓慢渐变维度,同时这一切完全遵循维度建模理论
5、 代码片段
代码片段模板,让所有重复的输入工作一次输入,多次使用。如指标的同比、环比等,我们内置了数据处理,指标计算等常用模板,让这一切成为您高效数据处理的加速度
6、 多环境管理
开发、测试环境、生产环境之间通过使用差异化部署技术,仅重新部署已经修改了的或者只部署当前环境中所需的必要更改,真正帮助您完成数据仓库的持续集成,持续开发,持续部署
7、 血缘和影响分析