5分钟看懂:如何构建一个数据仓库?
有朋友私信我,说希望了解数仓的整体建设中的细节及模板。那有啥说的,下面直接上干货!
数仓全景图镇楼
# 一、建设过程
数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这些步骤比较抽象。
为了便于落地,笔者根据自己的经验,总结出上面的七个步骤:梳理业务流程、垂直切分、指标体系梳理、实体关系调研、维度梳理、数仓分层以及物理模型建立。
每个步骤不说理论,直接放工具、模板和案例。
详见:从 0 到 1 建设数据仓库(附 PPT) (opens new window)
# 二、业务流程
1、找到公司核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。
2、梳理每个业务节点的客户及关注重点,找到数据在哪。
# 三、分域 / 主题
3、决定数仓的建设方式,快速交活,就用自下而上的建设。要全面支撑,就顶层规划,分步实施,交活稍微慢点。
4、同时按照业务领域划分主题域。主题域的划分方法有:按业务流划分(推荐)、按需求分、按职责分、按产品功能分等。
详见:一文读懂数仓主题与主题域划分方法 (opens new window)
# 四、指标体系
5、指标的意义在于统一语言,统一口径。所以指标的定义必须有严格的标准。否则如无根之水。
指标可分为原子指标、派生指标和衍生指标,其含义及命名规则举例如下:
6、依照指标体系建设标准,开始梳理指标体系。整个体系同样要以业务为核心进行梳理。同时梳理每个业务过程所需的维度。维度就是你观察这个业务的角度,指标就是衡量这个业务结果 好坏的量化结果。
请注意,此时不能被现有数据局限。如果分析出这个业务过程应该有这个指标,但是没有数据,请标注出来,提出收集数据的需求。
详见:终于有人把数据指标体系讲明白了 (opens new window)
# 五、实体关系
7、每个业务动作都会有数据产生。我们将能够获取到的数据,提取实体,绘制 ER 图,便于之后的维度建模。
8、同样以业务过程为起点向下梳理,此时的核心是业务表。把每张表中涉及的维度、指标都整理出来。
详见: 数据仓库 4 种建模方法与实例剖析 (opens new window)
# 六、维度整理
9、维度标准化是将各个业务系统中相同的维度进行统一的过程。其字段名称、代码、名字都可能不一样,我们需要完全掌握,并标准化。
维度的标准尽可能参照国家标准、行业标准。例如地区可以参照国家行政区域代码。
另外,有些维度存在层级,如区域的省、市、县。绝大多数业务系统中的级联就是多层级维度。
详见:数据仓库维度建模概念解析 (opens new window)
# 七、数仓分层
10、数据仓库一般分为 4 层,名字可能会不一样,但是其目的和建设方法基本一致:
每一层采用的建模方法都不一样,其核心是逐层解耦。越到底层,越接近业务发生的记录,越到上层,越接近业务目标。
11、依托数仓分层的设计理论,根据实际业务场景,我们就可以梳理出整体的数据流向图。这张图会很清晰的告诉所有人,数据从那来,到哪里去,最终提供什么样的服务。
详见: 详解数据仓库分层架构 (opens new window)
八、模型建立
12、此时才真正进入纯代码阶段。数仓、ETL 工具选型;ETL 流程开发;cube 的建立;任务调度,设定更新方式、更新频率;每日查看日志、监控 etl 执行情况等等。
前面梳理清楚了,ETL 会变的非常清晰。
Tips:
1、数仓建设须从业务中来,到业务中去。
2、数仓分层的目的是业务解耦。
3、无论哪种建模方式,其核心是业务实体。
4、按领域建设能快速交活,后遗症将会在 2 年之后爆发,且难以解决。
5、数仓建设应该把 75% 的时间投入到设计阶段,如果不是,那你就惨了。
6、数仓本身也可以迭代。
7、传统数仓并没有一种叫做 “宽表模型” 的模型,大数据时代新诞生的名词,因为很多大数据组件 join 代价极高。实际上是范式退化。
大家都在看:
1、 (opens new window)大数据能力平台建设方案(PPT) (opens new window)
2、数据分类分级方法、标准及应用实践 (opens new window)
3、 (opens new window)华为数字化转型:从战略到执行(PPT) (opens new window)
4、 (opens new window)数据治理咨询项目:《XX 集团数据管理办法》.doc (opens new window)
5、数据治理体系架构设计方案(PPT) (opens new window)
6、华为 VS 阿里数据中台建设方法论 (opens new window)
7、一文读懂 DAMA 数据治理工程师认证考试(内含福利) (opens new window)
8、 (opens new window)终于有人把数据指标体系讲明白了 (opens new window)
9、 (opens new window)数据安全治理体系建设思路和方法 (opens new window)
10、 (opens new window)数据资产目录建设方案 (opens new window)
11、非结构化数据治理方案 (opens new window)
12、德勤:集团主数据管理方法论(PPT) (opens new window)
13、企业大数据平台顶层规划设计方案(PPT) (opens new window)
- 01
- idea 热部署插件 JRebel 安装及破解,不生效问题解决04-10
- 02
- spark中代码的执行位置(Driver or Executer)12-12
- 03
- 大数据技术之 SparkStreaming12-12