通俗易懂了解什么是数据仓库

日期：2022-03-11 栏目：程序人生浏览：次

什么是数据仓库

数据仓库（下文以“数仓”称），顾名思义，存放数据的仓库，它集合了各个业务系统的数据，以金融业为例，数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策；在有些公司也作为各业务系统的数据来源。

从逻辑上理解，数据库和数仓没有区别，都是通过数据库软件实现存放数据的地方，只不过从数据量来说，数据仓库要比数据库更庞大。

他们最主要的区别在于，传统事务型数据库如 MySQL 用于做联机事务处理（OLTP），例如交易事件的发生等；而数据仓库主要用于联机分析处理（OLAP），例如出报表等。

有些同学可能想，数据分析、出报表等工作也可以直接通过业务数据库完成呀，数据仓库似乎也不是必需品。

如果是简单的系统，比如初创时期，业务量少，用户和数据少，几台服务器和几个MySQL组成的系统，那确实可以实现。但当业务越做越多，用户和数据量很庞大，出报表需要跨集群关联多个系统的数据实现的话，那数仓还是很有必要的。

如果还不能理解，先想几个问题

如果你要的数据分别存放在很多个不同的数据库，甚至存在于各种日志文件中，你要如何获取这些数据？

如果你从各数据源中取出了你要的数据，但是发现格式不一样，或者数据类型不一样，你要怎么规范？

如果有一天你需要在业务系统查历史数据，但发现这些数据被修改过的，你要怎么办？

如果要跨集群关联各个不同业务系统的数据，要怎么做？怎么优化查询时间？

……

数仓的出现，可以很好的解决上面这些问题。它通过数据抽取和清洗，将各个业务系统的数据整合落地到一个系统（数仓），规范化数据，方便在出报表做决策的时候获取数据。

数仓架构

数仓的特点

集成性

数仓中存储的数据来源于多个数据源，原始数据在不同数据源中的存储方式各不相同。要整合成为最终的数据集合，需要从数据源经过一系列抽取、清洗、转换的过程。

稳定性

数仓中保存的数据是历史记录，不允许被修改。用户只能通过分析工具进行查询和分析。

动态性

数仓的数据会随时间变化而定期更新，这里的定期更新不是指修改数据，一般是将业务系统发生变化的数据定期同步到数仓，和稳定性不冲突。不可更新是针对应用而言，即用户分析处理时不更新数据。

主题性

传统数据库对应的业务不同，数仓需要根据需求，将不同数据源的数据进行整合，即数据一般都围绕某一业务主题进行建模。例如“贷款”主题、“存款”主题等。

数仓分层

数仓一般是分层的，而且各个公司都基于自己的业务场景进行分层，目前的分层可以说是五花八门，没有标准答案。但是最主流的还是按照这样进行分层：

数仓分层

可能有些同学又要问了，直接取需要的数据落地到表就行了，为什么要分层？有啥好处？

试想一下，如果不做分层，你按照需求从各个源系统抽取数据落地了一张表，哪一天老板让你在原来的基础上加个字段，你怎么做？

或者哪天这张表的数据出问题了，你如何定位是哪个模块或者环节出了问题？

数仓分层的意义在于

减少重复开发，在数据开发的过程中可以产生中间层，将公共逻辑下沉，减少重复计算；

清晰数据结构，每个分层分工明确，方便开发人员理解；

方便定位问题，通过分层了解数据血缘关系，在出问题的时候通过回溯定位问题；

简单化复杂问题，和分治法思想类似，分而治之，将复杂的问题简单化，还能解耦

总结

本文简单介绍了数仓的概念和数仓的作用，以及数仓的分层和分层的优点，也算是简单的入门。

后续如果有机会，我会继续产出数仓和大数据相关的文章，如果觉得对你有帮助，可以点个赞再随手关注，防止迷路。

转载请注明来源: Author：Maxim
博客园: https://www.cnblogs.com/lyuzt/articles/15155931.html
CDSN: https://blog.csdn.net/weixin_43596734/article/details/119784553