从0开始学大数据-数据仓库理论篇
什么是数据仓库
数据仓库(DW)是一个 面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。
“建立数据仓库的目的是为企业高层系统地组织、理解和使用数据以便进行战略决策。
数据仓库的特征
数据仓库有以下几大特征:
(1)面向主题
主题是指用户使用数据仓库进行决策时所关心的重点领域。数据仓库通过一个个主题将多个业务系统的数据加载到一起,为了各个主题(如:用户、订单、商品等)进行分析而建,操作型数据库是为了支撑各种业务而建立。
(2)集成性
数据仓库会将不同源数据库中的数据汇总到一起,但是并不是简单的复制,而是经过了抽取、筛选、清理、转换、综合等工作。
(3)稳定性即非易失的
数据仓库的数据是为了企业数据分析而建立,所以数据被加载后一般会保存较长时间。数据仓库中的数据大多表示过去某一时刻的数据,主要用于查询、分析,不会经常进行修改、添加等操作。
(4)随时间而变化即时变的
数据仓库存储的是历史数据,它会定期从操作型应用系统中接收新的数据。所以数据仓库中的数据一般都有个时间维度。数据仓库实际是记录了系统的各个瞬时,并通过瞬态连接起来形成动画(即数据仓库的快照集合),从而在数据分析时再现系统运动的全过程。
为什么使用数据仓库通常数据仓库的数据是来自各个业务应用系统,然后业务系统中的数据形式是多种多样的,可能是Oracle、MySQL、SQL Server 等关系数据库里的结构化数据,也有可能是文本、CSV 等平面文件或Word、Excel 文档中的非结构化数据,还有可能是 HTML、XML 等自描述的半结构化数据。这些数据经过一系列的 数据抽取、转换、清洗,最终以一种统一的格式装载进数据仓库。数据仓库里的数据作为分析用的数据源,提供给后面的 即系查询、分析系统、数据集市、报表系统、数据挖掘系统等。
使用数据仓库有以下好处:
将多个数据源集成到单一数据存储,因此可以使用单一数据查询引擎展示数据。
缓解在事务处理数据库上因执行大查询而产生的资源竞争问题。
维护历史数据。
通过对多个源系统的数据整合,使得在整个企业的角度存在同一的中心视图。
通过提供一致的编码和描述,减少或修正坏数据问题,提高数据质量
一致性地表示组织信息。
提供所有数据的单一通用数据模型,而不用关心数据源。
重构数据,使数据对业务更有意义。
向复杂分析查询交付优秀的查询性能,同时不影响操作型系统。
开发决策性查询更简单。
数据仓库与传统数据库的区别数据仓库虽然是从传统数据库系统发展而来,但是两者还是存在着诸多差异。
数据仓库系统组成
数据仓库系统以数据仓库为核心,将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,通过数据分析与报表模块的查询和分析工具 OLAP (联机分析处理)、决策分析、数据挖掘完成对信息的提取,以满足决策的需要。
整个数据仓库系统分为:源数据层、数据存储和管理层、OLAP 服务器层、前端分析工具层。