Young's blog Young's blog
首页
Spring
  • 前端文章1

    • JavaScript
  • 学习笔记

    • 《JavaScript教程》
    • 《JavaScript高级程序设计》
    • 《ES6 教程》
    • 《Vue》
    • 《React》
    • 《TypeScript 从零实现 axios》
    • 《Git》
    • TypeScript
    • JS设计模式总结
  • HTML
  • CSS
  • 技术文档
  • GitHub技巧
  • Nodejs
  • 博客搭建
  • 学习
  • 面试
  • 心情杂货
  • 实用技巧
  • 友情链接
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Young

首页
Spring
  • 前端文章1

    • JavaScript
  • 学习笔记

    • 《JavaScript教程》
    • 《JavaScript高级程序设计》
    • 《ES6 教程》
    • 《Vue》
    • 《React》
    • 《TypeScript 从零实现 axios》
    • 《Git》
    • TypeScript
    • JS设计模式总结
  • HTML
  • CSS
  • 技术文档
  • GitHub技巧
  • Nodejs
  • 博客搭建
  • 学习
  • 面试
  • 心情杂货
  • 实用技巧
  • 友情链接
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 信息化、数字化、智能化到底是什么
  • BI和报表的区别,终于有人说清楚了!
  • 什么是业财一体化?
  • 业务流程的数字化到底是什么?
  • 数字化转型的核心是技术?还是业务?
  • 信息建设三驾马车:MES系统拆解
  • 聊聊ERP、MES、CRM、SCM、WMS系统的前世今生
  • 聊聊数字化工厂的一些术语
  • 越来越看不懂的企业数字化转型- 数据化转型的痛点
  • 动态排程:生产计划排程的关键!
  • 智能工厂信息化建设策划方案
  • 非标机械加工/机械设备行业ERP系统、生产MES系统功能介绍分析
  • 详谈装备制造业MES系统功能以及实施要点
  • 扩展阅读-MES生产过程控制:实现智能工厂的关键
  • 企业数字化的五个层次,你在哪一层?
  • 企业数字化转型:信息化与数字化之争!
  • 企业数字化转型:信息化与数字化之争!
  • 信息建设三驾马车:ERP系统拆解
  • 信息建设三驾马车:PLM系统拆解
  • 数字化工厂的本质!
  • 11个问题,帮你彻底搞懂工业互联网
  • 企业架构12——sop(标准作业程序)
  • 数字化转型三阶段:信息化→数字化→数智化
  • 物料需求计划MRP和物料清单BOM的运算逻辑
  • 聊聊制造企业仓库管理系统WMS的设计思路
  • BI的底层逻辑:业务流、信息流和数据流
  • 5分钟看懂:如何构建一个数据仓库?
  • 73页PPT | 大数据平台规划与数据挖掘应用咨询项目解决方案
  • 数字化
andanyang
2023-07-13

5分钟看懂:如何构建一个数据仓库?

有朋友私信我,说希望了解数仓的整体建设中的细节及模板。那有啥说的,下面直接上干货!

数仓全景图镇楼

# 一、建设过程

数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这些步骤比较抽象。

为了便于落地,笔者根据自己的经验,总结出上面的七个步骤:梳理业务流程、垂直切分、指标体系梳理、实体关系调研、维度梳理、数仓分层以及物理模型建立。

每个步骤不说理论,直接放工具、模板和案例。

详见:从 0 到 1 建设数据仓库(附 PPT) (opens new window)

# 二、业务流程

1、找到公司核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。

2、梳理每个业务节点的客户及关注重点,找到数据在哪。

# 三、分域 / 主题

3、决定数仓的建设方式,快速交活,就用自下而上的建设。要全面支撑,就顶层规划,分步实施,交活稍微慢点。

4、同时按照业务领域划分主题域。主题域的划分方法有:按业务流划分(推荐)、按需求分、按职责分、按产品功能分等。

详见:一文读懂数仓主题与主题域划分方法 (opens new window)

# 四、指标体系

5、指标的意义在于统一语言,统一口径。所以指标的定义必须有严格的标准。否则如无根之水。

指标可分为原子指标、派生指标和衍生指标,其含义及命名规则举例如下:

6、依照指标体系建设标准,开始梳理指标体系。整个体系同样要以业务为核心进行梳理。同时梳理每个业务过程所需的维度。维度就是你观察这个业务的角度,指标就是衡量这个业务结果   好坏的量化结果。

请注意,此时不能被现有数据局限。如果分析出这个业务过程应该有这个指标,但是没有数据,请标注出来,提出收集数据的需求。

详见:终于有人把数据指标体系讲明白了 (opens new window)

# 五、实体关系

7、每个业务动作都会有数据产生。我们将能够获取到的数据,提取实体,绘制 ER 图,便于之后的维度建模。

8、同样以业务过程为起点向下梳理,此时的核心是业务表。把每张表中涉及的维度、指标都整理出来。

详见: 数据仓库 4 种建模方法与实例剖析 (opens new window)

# 六、维度整理

9、维度标准化是将各个业务系统中相同的维度进行统一的过程。其字段名称、代码、名字都可能不一样,我们需要完全掌握,并标准化。

维度的标准尽可能参照国家标准、行业标准。例如地区可以参照国家行政区域代码。

另外,有些维度存在层级,如区域的省、市、县。绝大多数业务系统中的级联就是多层级维度。

详见:数据仓库维度建模概念解析 (opens new window)

# 七、数仓分层

10、数据仓库一般分为 4 层,名字可能会不一样,但是其目的和建设方法基本一致:

每一层采用的建模方法都不一样,其核心是逐层解耦。越到底层,越接近业务发生的记录,越到上层,越接近业务目标。

11、依托数仓分层的设计理论,根据实际业务场景,我们就可以梳理出整体的数据流向图。这张图会很清晰的告诉所有人,数据从那来,到哪里去,最终提供什么样的服务。

详见: 详解数据仓库分层架构 (opens new window)

八、模型建立

12、此时才真正进入纯代码阶段。数仓、ETL 工具选型;ETL 流程开发;cube 的建立;任务调度,设定更新方式、更新频率;每日查看日志、监控 etl 执行情况等等。

前面梳理清楚了,ETL 会变的非常清晰。

Tips:

1、数仓建设须从业务中来,到业务中去。

2、数仓分层的目的是业务解耦。

3、无论哪种建模方式,其核心是业务实体。

4、按领域建设能快速交活,后遗症将会在 2 年之后爆发,且难以解决。

5、数仓建设应该把 75% 的时间投入到设计阶段,如果不是,那你就惨了。

6、数仓本身也可以迭代。

7、传统数仓并没有一种叫做 “宽表模型” 的模型,大数据时代新诞生的名词,因为很多大数据组件 join 代价极高。实际上是范式退化。

大家都在看:

1、 (opens new window)大数据能力平台建设方案(PPT) (opens new window)

2、数据分类分级方法、标准及应用实践 (opens new window)

3、 (opens new window)华为数字化转型:从战略到执行(PPT) (opens new window)

4、 (opens new window)数据治理咨询项目:《XX 集团数据管理办法》.doc (opens new window)

5、数据治理体系架构设计方案(PPT) (opens new window)

6、华为 VS 阿里数据中台建设方法论 (opens new window)

7、一文读懂 DAMA 数据治理工程师认证考试(内含福利) (opens new window)

8、 (opens new window)终于有人把数据指标体系讲明白了 (opens new window)

9、 (opens new window)数据安全治理体系建设思路和方法 (opens new window)

10、 (opens new window)数据资产目录建设方案 (opens new window)

11、非结构化数据治理方案 (opens new window)

12、德勤:集团主数据管理方法论(PPT) (opens new window)

13、企业大数据平台顶层规划设计方案(PPT) (opens new window)

14、终于有人把数据中台讲明白了 (opens new window)

15、企业数字化转型之道(PPT) (opens new window)

编辑 (opens new window)
上次更新: 2024/04/19, 08:52:45
BI的底层逻辑:业务流、信息流和数据流
73页PPT | 大数据平台规划与数据挖掘应用咨询项目解决方案

← BI的底层逻辑:业务流、信息流和数据流 73页PPT | 大数据平台规划与数据挖掘应用咨询项目解决方案→

最近更新
01
idea 热部署插件 JRebel 安装及破解,不生效问题解决
04-10
02
spark中代码的执行位置(Driver or Executer)
12-12
03
大数据技术之 SparkStreaming
12-12
更多文章>
Theme by Vdoing | Copyright © 2019-2024 Young | MIT License
浙ICP备20002744号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式