数据治理到通用概念

华为云数据治理架构

华为云数据治理中心

数据集成

数据集成就是将不同到数据源到数据通过ETL工具集成到数据打数据管理系统中。一般由独立到数据集成数据集成工具完成。

  1. 数据集成工具 数据集成集群管理,需要新建一个数据集成的集群,通常是一个ETL工具(数据加载的工具集合)。
  2. 数据链接 是用数据集成集群集成数据是是需要建立源数据和目标数据之间的链接。新建连接(源数据链接和和目标数据链接);
  3. 新建作业 选在源和目标数据链接以及、数据库和表名称以及字段映射关系以及数据集成任务的执行参数
  4. 启动任务执行

业务调研

主要是完成信息架构、主题设计和流程设计。 1. 信息架构主要是数据资产的总揽。一般是在后续设计完成之后就逐步行程了信息架构。 2. 主题设计主要就是基于业务调研结果完成主题域分组、主题域以及业务对象的设计。 3. 流程设计主要是梳理清楚流程组、流程以及流程活动,流程是业务活动到梳理与描述最终数据资产是要归属于某个业务流程。

标准设计

  • 基本概念 码表:也称lookup表、数据字典,一般由中英文名称编码组成,由可枚举数据构成,存储枚举数据名称与编码的映射关系。码表的主要作用有:
    1. 数据清洗中用于标准化业务数据、补充映射字段;
    2. 质量监控中用于监控业务时间的值域范围;
    3. 纬度建模中可引申为枚举纬度。
  • 数据标准 定义数据含义和业务规则。一般会提供名称、目录、标准编码、数据类型、长度、引用的码表、质量规则(例如是否为空、字段唯一值、重复值等)等
  • 码表管理 定义和管理码表

模型设计

  • 关系建模
    • 逻辑模型(表示物理实体之间逻辑关系)
    • 物理模型:逻辑模型物化之后就形成了物理模型,物化过程就是将逻辑模型落地到物理数据管理系统(Hive/DWS/ClickHouse)。
  • 纬度建模
    • 纬度:用于关阀和分析业务数据的视角,制成对数据汇总、钻取、切片分析,用于SQL 中分组(GROUP BY条件)、查询约束条件(SQL WHERE条件)、报表标签等。纬度多数具有层级结构,如:地理纬度(国家、地区、省市级别的内容)地区、时间纬度(年度、季度、月度等)
    • 纬度表:业务分析需要用到的纬度,需要为每一个纬度建立一个纬度表,纬度表是纬度物化的结果;
    • 事实表:归属于某个业务过程的事实逻辑表,是业务过程中对应事物的详细信息,创建逻辑事实表明即完成对公共事务明细数据沉淀,便于提前业务事务相关的明细数据;事实表数据可能来源多个源表;一起数据应用和分析都是围绕事实表来展开的;
  • 汇总表:根据纬度表和事实表生成的汇总表,汇总表直接用于数据服务;

指标设计

  • 业务指标 衡量目标总体特征的统计数值,是能表征企业某一个业务活动业务状况的数据指示器。业务指标用于指导技术指标,技术指标是业务指标的具体实现。一般由指标名称和指标数值(含计算公式)两部分组成。

  • 技术指标 技术指标可分成四类:

    • 原子指标:直接来源于事实表;
    • 衍生指标:无来源表,由原子指标组合而成;
    • 复合指标:由衍生指标叠加计算生成,其中的纬度、限定均继承自衍生指标。

数据集市

  • 汇总逻辑表 由一个特定的分析对象(如会员)及其相关的统计指标组成。组成一个汇总表的统计指标都又有相同的统计粒度(如会员),汇总逻辑表面向用户提供了统计粒度(如会员)为主题的所有统计数据(如会员主题集市),汇总表直接对外提供数据服务(API)
作者

Mixion

发布于

2023-02-02

更新于

2024-05-12

许可协议