跳至主要內容

对数据中台的梳理与思考

PowerData大约 26 分钟数据中台

本文由 PowerData 灵魂人物贡献
姓名:李奇峰
花名:灵魂人物
微信:bigdata_qifeng
年龄:95 后
工作经验:3-5 年
工作内容:数仓, 数开, 数据中台, 后端开发
自我介绍:一个对数据中台非常感兴趣的人


全文共 7693 个字,建议阅读 13 分钟

Gartner:《数据中台在中国已经接近炒作的顶峰》

PowerData:接近顶峰?那就说明还有上升的空间嘛

本篇文章聊聊数据中台爆火背后的逻辑。

图:数据中台与业务中台

一、概念篇

1、什么是中台

中台是将系统的通用化能力进行打包整合,通过接口的形式赋能到外部系统,从而达到快速支持业务发展的目的。比如业务中台,更多的是对业务的支持,比如客户信息,组织信息、产品信息等,这些都来自某一个系统,且分别支持多个系统的业务。提供给业务中台使用。

从技术角度,中台是为了搭建一个灵活快速应对变化的架构,可以快速实现前端提的需求,避免重复建设,这也是符合敏捷开发理念。

什么是数据中台

业界目前对数据中台没有统一的定义,本篇文章仅基于共识给出 PowerData 的理解。

数据中台并不是一种技术,更多的是数据集成、管理、应用的体系。本质目的在于通过一系列的整合与管理,提供可以复用的数据能力,提升企业数据资产化能力,从而更好的为业务提供数据支撑,实现数据驱动的目标。

二、业内痛点

1、数据孤岛林立,无法有效集成

图:数据孤岛

数据孤岛主要由于公司部门以及业务系统之间的割裂导致难以做到数据的互联互通,各业务的展开无法对数据直接复用和快速迭代。

作为目前数据资产化的首要痛点,也是数据中台需要打通的首要目标,

其带来的问题主要有以下几点:

  1. 信息系统的割裂导致数据的割裂,业务无法复用现有数据,增加开发成本。

  2. 数据标准不统一,各部门间各自定义数据指标与标准,导致合作困难,增加沟通成本。

  3. 业务功能的重复建设导致业务数据重复,造成了数据的冗余、无效、不一致等情况。

2、平台建设周期长,投入成本大

大数据平台作为企业数字化的基础平台,从成本考虑来看,一套完整的平台需要投入大量的人力物力精力去建设,且更多针对数据部门本身的需求来进行建设,缺少全局统筹的思想。

3、数据资产无法有效管理

数据资产化作为近两年数据领域关注的话题,越来越多地被企业所关注。

以往的数据资产管理更多的是依靠人力与手工管理,方式简单粗暴,管理效率低下,甚至许多公司都没有数据资产管理的概念,数仓搭建完成即到此为止。

4、数据复用性低,使用成本高

数据层面的复用仅仅只是数仓 ods-dim-dwd-dws-ads 之间的分层复用,是完全不够的,数仓分层只是提供了复用的能力,而没有提供复用的便利。

数据应用的过程,数据本身的元数据信息、血缘信息以及指标体系作为理解数据的重要手段,在数仓中或并不能完全体现,同时数仓仅提供了库表数据,应用层需要进行编码读取后才可使用。

三、为什么是数据中台

基于上述痛点,数据中台所包含的概念与内容给我们提供了一些定向的解决思路。

1、数据集成为先,打通数据孤岛

数据集成的意义在于能够通过打通多数据源中的数据,将其汇总到一个数据存储中如数仓 / 数据湖,为用户提供统一的查询出口,并进行集中处理。

在此过程中需要对数据进行清洗、转换、去重、筛选等操作,确保数据的一致性与规范性。

2、管好才能用好

个人认为,中台最核心的能力就是数据资产管理能力,通过元数据管理、数据血缘、指标体系等一系列手段将数据的关联关系、技术元数据、业务元数据、指标相关信息进行统一展示,并对外赋能业务。同时通过数据质量,将各节点间数据进行监控并提前预警,确保数据的准确性以及可用性。

3、统一数据服务

中台核心目的就是对外提供便捷、准确、高效的数据服务,前期包括数据集成与数据资产管理均为统一的数据服务提供保障。对外服务的主体包括但不限于数仓数据、指标信息、元数据信息。服务方式包括但不限于:数据接口、SDK 开发包、搜索展示平台、数据地图、数据门户等。

统一服务出口的意义主要有以下几点:

  1. 中台内部集成与治理后的数据,对外服务过程中可确保公司层面的数据一致性。

  2. 通过可复用的数据服务出口,为后续应用开发减少了工作量。

四、数据中台的边界

在 PowerData 社区内部讨论数据中台时,遇到最常见的问题就是:数据中台到底包含哪些内容,即数据中台的边界是什么

首先需要声明一点,数据中台没有标准架构,更多的是企业数据管理应用体系,各个公司对于中台的需求与理解都不近相同,以下内容仅为 PowerData 总结的中台边界:

  • 数据集成

  • 数据模型管理

  • 数据仓库 / 数据湖

  • 主数据管理

  • 元数据管理

  • 数据血缘

  • 数据质量

  • 数据生命周期管理

  • 数据安全管理

  • 数据标准管理

  • 统一数据服务

1、数据集成

目前常见的数据集成组件主要包括:离线数据集成、实时(增量)数据集成。

其中离线数据集成主要包括:Sqoop、Datax、Kettle、SeaTunnel【首个国产开源数据集成组件】等

实时(增量)数据集成主要包括:Flink CDC、Canal、Maxwell、Debezium 等

数据中台可以自行开发或结合上述组件,对各异构数据源进行集成。

2、数据模型管理

图:菜鸟数仓建模平台

1)数据模型概述

数据模型能够直观地表达业务逻辑,能够使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名,是业务人员和开发人员之间沟通的一套语言。

关系模型和维度模型是常见的数据模型:

关系模型从全企业的高度设计一个 3NF 模型的方法,用实体加关系描述的数据模型描述企业业务架构,更多是面向数据的整合和一致性,常用于业务系统数据建模;

维度建模以分析决策的需求为出发点构建模型,直接面向业务,典型的代表是我们比较熟知的星形模型,以及在一些特殊场景下适用的雪花模型,大多数据仓库均会采用维度模型建模;

2)当前痛点

① 数据建模与数仓建设落地脱离,模型落地很难,更多的还是停留在文档。

② 模型扩展性不足,导致烟囱式开发。

③ 模型研发缺少有效的系统工具帮助我们管理好数仓模型。

④ 表间引用关系不易检索,数据开发不便。

⑤ 模型设计问题导致任务报错多,给运维带来很大的挑战。

⑥ 无线上体系化的指标衡量数仓。

3)管理目标

  • 稳定性:完善我们数据产出时效和数据质量稳定性,以我们的值班起夜次数和基线破线率、数据质量工单主动发现率为目标 。

  • 扩展性:提升模型变化的兼容性,达到底层业务变动与上层需求变动对模型冲击最小化,以业务需求支持效率和业务模块新建核心表数量为目标。

  • 时效型:提升数据模型产出时效以及需求响应速度,以值班起夜次数和业务需求及时交付率为目标。

  • 易用性:降低下游使用门槛,复杂逻辑前置,通过冗余维度和事实表,进行公共计算逻辑下沉,明细与汇总共存等为业务提供灵活性,以数仓丰富度为目标。

  • 成本:避免烟囱式的重复建设以及优化不合理任务消耗,节约计算、存储成本,以成本执行率为目标。

3、数据仓库 / 数据湖

数仓 / 数据湖作为数据中台中数据资源存放的主要形式。

通过数据集成后的数据,需要进行数据清洗,保证数据的可靠性与一致性,然后根据公司业务需求进行建模。
在此过程中所包含的源数据以及后续操作生成的所有数据,我们需要将其保存在数据仓库或数据湖中,以便进行后续的溯源、复用。

主数据管理

主数据指的是企业核心业务对象,且在企业系统内部共享。从维度建模的角度来看,主数据一般存在企业的一致性维度表中,例如客户维度表、商品维度表、地区维度表等。

主数据具有 4 个主要特征:唯一性、有效性、稳定性、共享性。

4、元数据管理

图:元数据管理

元数据通过全局统一的数据描述信息及系统化管理,统一数据标准,促进数据集成和共享,打通企业内部数据孤岛,提升数据管理和应用效率。

目前常见元数据分类包括:技术元数据、业务元数据、操作元数据、管理元数据、行为元数据、运营元数据、服务元数据。

每个分类下面还有繁多的属性,但是究其本质,我们可以将元数据根据属性来源划分为两类:

技术元数据: 数据本身的特定属性

业务元数据: 业务赋予的可变属性

5、主数据管理


1)概述

主数据指的是企业核心业务对象,且在企业系统内部共享。从维度建模的角度来看,主数据一般存在企业的一致性维度表中,例如客户维度表、商品维度表、地区维度表等。

主数据具有 4 个主要特征:唯一性、有效性、稳定性、共享性 。

2)管理意义

主数据管理的主要作用,是帮助企业集中管理数据,保证主数据的一致,从而建立统一视图,实现数据共享,推动业务发展。

3)如何实施

  1. 明确目标范围,对企业内部数据进行主数据划分,制定管理目标;

  2. 调研企业主数据规则与管理情况,明白现实和目标之间的差距;

  3. 搭建制度与流程,从组织,制度,运营层面,对主数据进行管理;

  4. 体系建立后需要打通主数据在企业中产生、集成、管理、服务的闭环。

  5. 把主数据用于日常企业业务中,在此过程中开展包括主数据运营管理优化,主数据推广,主数据质量提升,主数据价值衡量等。

6  、数据血缘

数据血缘是在数据的加工、流转过程产生的数据与数据之间的关系。

提供一种探查数据关系的手段,用于跟踪数据流经路径。

数据血缘主要由以下内容组成:

1)数据节点

数据血缘中的节点,可以理解为数据流转中的一个个实体,用于承载数据功能业务。例如数据库、数据表、数据字段都是数据节点;从广义上来说,与数据业务相关的实体都可以作为节点纳入血缘图中,例如指标、报表、业务系统等。

按照血缘关系划分节点,主要有以下三类:流出节点 -> 中间节点 -> 流入节点

2)节点属性

当前节点的属性信息,例如表名,字段名,注释,说明等。

3)流转路径

数据流转路径通过表现数据流动方向、数据更新量级、数据更新频率三个维度的信息,标明了数据的流入流出信息。

  • 数据流动方向:通过箭头的方式表明数据流动方向

  • 数据更新量级:数据更新的量级越大,血缘线条越粗,说明数据的重要性越高。

  • 数据更新频率:数据更新的频率越高,血缘线条越短,变化越频繁,重要性越高。

4)流转属性

流转属性体现了数据流转过程中发生的变化,记录了当前路径对数据的操作内容,属性可以是直接映射关系,也可以是复杂的规则,例如:

  • 数据映射:不对数据做任何变动,直接抽取。

  • 数据清洗:表现数据流转过程中的筛选标准。例如要求数据不能为空值、符合特定格式等。

  • 数据转换:数据流转过程中,流出实体的数据需要进行特殊处理才能接入到数据需求方。

  • 数据调度:体现当前数据的调度依赖关系。

  • 数据应用:为报表与应用提供数据。

7、数据质量

数据质量就是通过一组维度来评价数据的方式,如同判断商品的好坏一样,数据也有评价标准。

数据是对现实世界的反映,如果当前数据代表的意义与现实世界不符,则认为数据出了质量问题。

1)质量问题原因

追根溯源,导致数据出现质量问题的原因有很多,总的来看,主要有业务、技术、管理、基础设施四个方面:

  • **业务端:**业务源系统变更(源系统数据库表结构变更、源系统环境变更)、业务端数据输入不规范等;

  • **技术端:**数据开发任务中各种任务的流程、参数、配置等出错;

  • **管理端 :**认知层面缺乏质量意识、缺乏有效的数据质量问题处理机制等;

  • **基础设施:**物理资源不足、基础设施不稳定等。

2)评判标准

  • 准确性:
    数据描述的信息与客观现实是否相符,准确性是数据质量中最重要的评价标准。

  • 完整性:
    当前数据是否存在丢失、关键字段为空、或者不可用的情况,主要包括:实体完整、属性完整、记录完整和字段值完整。

  • 一致性:
    多源数据是否遵循了统一的规范,数据集合是否保持了统一的格式。

  • 规范性:
    数据是否遵循预定的语法规则并符合其定义,例如数据的类型、长度、格式、取值范围等。

  • 唯一性:
    当前数据是否有重复,是否存在唯一标识保证数据的唯一性,包括:主键唯一,实体唯一,事件唯一

  • 及时性:
    数据从产生到可以查看的时间间隔。数据分析对于及时性要求不高,但如果数据分析周期过长,可能导致分析结论失去借鉴意义。

8、生命周期管理

1)概述

数据生命周期管理(Data Life Cycle Management,DLM)是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从创建和初始存储,到最终过时被删除,即指某个集合的数据从产生或获取到销毁的过程。

2)管理目标

组织通过数据生命周期管理,提高整体数据管理能力,通常来说,数据生命周期管理的目标有以下 5 个方面:

(1) 高效:提高数据访问性能

(2) 低成本:降低数据存储和管理运维成本

(3) 安全保障:结合应用提供数据访问安全

(4) 综合管理:采用统一的管理方案

(5) 访问便捷:所有数据采用一致的界面访问

9、数据安全管理

1)概述

数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力,包括数据收集、存储、使用、加工、传输、提供、公开等。

2)管理方式

数据分类分级

数据分类分级作为数据安全治理的切入点,是数据安全治理领域的一个专业名词,从名字上就能看出这个名词其实包含了两部分的内容:

  • 数据分类:数据分类是数据资产管理的第一步,不论是对数据资产进行编目、标准化,还是数据的确权、管理,亦或是提供数据资产服务,有效的数据分类都是首要任务。数据分类更多是从业务角度或数据管理的角度出发的,例如:行业维度、业务领域维度、数据来源维度、共享维度、数据开放维度等,根据这些维度,将具有相同属性或特征的数据按照一定的原则和方法进行归类。

  • 数据分级:数据分级是根据数据的敏感程度和数据遭到篡改、破坏、泄露或非法利用后对受害者的影响程度,按照一定的原则和方法进行定义。数据分级更多是从安全合规性要求、数据保护要求的角度出发的,我们称他为数据敏感度分级似乎更为贴切。数据分级本质上就是数据敏感维度的数据分类。

10、数据标准管理

1)概述

数据标准是指企业为保障数据的内外部使用和交换的一致性和准确性而制定的规范性约束。而数据标准管理则是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

数据标准管理是规范数据标准的制定和实施的一系列活动,是数据资产管理的核心活动之一,对于政府和企业提升数据质量、厘清数据构成、打通数据孤岛、加快数据流通、释放数据价值有着至关重要的作用,具体主要体现在以下几个方面:

  1. 数据标准为数据平台提供统一的数据标准定义和平台逻辑模型;

  2. 数据标准是数据平台进行数据治理的依据和根本;

  3. 数据标准是衡量数据平台数据资产运营和管理的评估依据;

  4. 需要通过数据标准管理的实施,实现对数据平台全网数据的统一运营管理。

2)管理目标

通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现数据的完整性、有效性、一致性、规范性、开放性和共享性管理,为数据资产管理提供标准依据。

对于大多数企业而言,他们已有各种各样的信息规范,如建模规范,但是这些规范只是为了约束开发工作,更多的时候强调的是数据字典表达的规范。而企业级数据标准的目标却是使企业内部在业务和数据上达成共识,业务共识在先,数据共识在后。从一个 IT 管理的数据规范变成企业级的数据标准,将是非常大的转变,这个转变的核心是以数据标准提高业务的规范性和业务协同能力,同时约束 IT 系统建设。

11、 统一数据服务

1)意义

中台核心目的就是对外提供便捷、准确、高效的数据服务,前期包括数据集成与数据资产管理均为统一的数据服务提供保障。对外服务的主体包括但不限于数仓数据、指标信息、元数据信息。服务方式包括但不限于:数据接口、SDK 开发包、搜索展示平台、数据地图、数据门户等。

统一服务出口的意义主要有以下几点:

  • 中台内部集成与治理后的数据,对外服务过程中可确保公司层面的数据一致性。

  • 通过可复用的数据服务出口,为后续应用开发减少了工作量。

2)方式

  • 数据接口:通过 HTTP 接口对外提供数据服务。

  • 可视化图表:将数据通过可视化图表进行展现。

  • 数据地图:在元数据基础上,通过多层次图形化的数据资产管理工具,将企业内各类数据进行展示,帮助业务人员、管理人员、开发人员更好更快地查找、理解、使用和管理数据。

  • 数据门户:通过配置导航菜单,自由组合报表、⼤屏、数据填报、外部链接等资源,形成⼀个可通过自定义地址统一访问的资源。数据门户可⽅便用户对多个关联⻚⾯进⾏集中查看。

  • 消息队列:将数据发送至消息中间件中,由下游进行统一消费。

五、未来发展趋势

1、标准化与市场下沉

数据中台的核心在于共享和沉淀能力,随着数据中台在行业头部及领先企业逐渐落地,供应商经历了各类业务场景能力沉淀的过程。

在深度上,数据中台厂商承载细分行业的各类定制化业务,不断沉淀业务能力。

在广度上,随着不同业务场景的持续输入,数据中台厂商产品的能力越来越丰富,覆盖的领域也越来越广泛。

完善数据中台的深度和广度,提炼和整合数据中台的服务,尤其是对于对数据中台能力要求相对简单的中小企业,为客户提供标准化的整体解决方案将成为数据中台服务商的产品方向。

2、精细化

首先,数据中台所提供的底层技术支撑能力,需要供应商在软件架构、云技术、容器编排、DevOps 等多方面有充足的技术储备,还需要具备资本和技术实力的双重积累。

纵观中国数据中台行业,虽然界限并不明晰,但是大致形成了以阿里、腾讯等技术雄厚的头部企业侧重提供底层架构技术,其他中小供应商侧重提供行业化服务和产品的竞争格局。

其次,没有一家供应商可以覆盖企业庞大的、所有的需求,尤其是多组织、多板块、跨业务的大型企业,所以在一个领域内已经完成实践和形成规模的供应商会优先深耕本领域,提供更加细分的场景切入口。

最后,企业也会根据业务需求面向不同领域的数据中台产品进行选择,不会局限于一家中台服务商。随着创业公司不断成长,细小赛道逐渐被填充,愈加激烈的市场竞争会使差异化成为供应商采取的产品战略。

3、SAAS 化

从内部来看,数据中台不断沉淀跨行业、跨企业复用的组件、模块,存在朝 SaaS 和本地部署混合模式发展的趋势。从外部来看,随着云计算的普及,部分系统 SaaS 化趋势较强。因此,作为前台和后台的连接,数据中台与 SaaS 应用融合对接的 实践越来越多,市场将逐渐形成一套成熟的中台 + SaaS 系统融合闭环方案。

敏捷开发、快速迭代以适应业务需求是数据中台的基本能力。随着数据中台市场渗透率的提高,应对小量应用调整的场景,低代码需求在近期兴起。允许通过零代码或少量代码就可以快速创建应用,对企业运维团队的要求降低,将充分提升数据 中台的应用性。

六、对数据中台的思考

1、为什么数据中台能这么火

数据中台的概念最早可以追溯到阿里在 2015 年提出的 “大中台,小前台” 战略,引用阿里巴巴对中台的定义:

“企业中台就是,将企业的核心能力随着业务不断发展以数字化形式沉淀到平台,形成以服务为中心,由业务中台和数据中台构建起数据闭环运转的运营体系,供企业更高效地进行业务探索和创新,实现以数字化资产的形态构建企业核心差异化竞争力。”

阿里的 “中台战略” 不是一个简单的组织变革,还有业务变革、机制变革、技术架构变革的一次全面转型。

在此之后,中台的概念便快速普及,但是数据中台火热的根本,个人认为还是因为其本身的核心理念,完美迎合了目前企业在数字化转型浪潮下的各项痛点需求,包括数据孤岛打通、高效数据服务、数据资产管理等。

可以说数据中台是企业落地数字化转型过程中,不可或缺的指导理念与实践方向。单纯的数据开发、数据平台、数据仓库等为企业构建了完整的数据流通 - 存储 - 应用的数据底座,但是从企业数据高效整合、治理、应用以及数据资产化的层面来看,单纯依靠数据底座无法满足上述需求,需要结合数据中台进行落地。

2、对于数据从业者的建议

拥抱中台,建设中台

数据中台作为公司数字化建设的核心,作为数据从业者我们需要积极的去拥抱中台所带来的变化,在建设中台的过程中,包括技术开发、架构调整、理念普及、概念落地,我们都需要尽力的配合,从而打造出一套完整易用的中台体系。

在整个建设过程中,数据从业者的推动能力、落地能力、以及对于数据的理解与管理能力都会得到很大的提升,从而成为一个全面发展的数据人才。

提高核心竞争力

随着数据中台的落地普及,数据管理能力以及数据复用性的提升,导致各公司对于数据从业者的要求也逐步提升。由之前单纯的数据开发、数据仓库、平台建设能力,逐步转变为数据管理能力、数据应用能力、数据驱动企业运营的能力。

这就要求我们对于数据不仅仅停留在开发层面,而是要转为:接 - 存 - 管 - 治 - 用等全流程的企业数字化转型过程中的落地能力。提升个人核心竞争力,提高对于数据的理解能力与应用能力,才能够让我们在中台的冲击下更加游刃有余。

3、创作此篇文章的目的

目前业内对于数据中台的介绍文章,很多并不是太全面,都只是将中台的概念、企业痛点以及中台的作用描述了一下,缺少中台具体内容的介绍,于是 PowerData 社区筹备了这篇《对数据中台的梳理与思考》,为大家介绍一下中台的具体内容,以及 PowerData 社区对于中台的理解与思考。

因为社区内部有很多小伙伴对中台的概念较为模糊,同时又对中台有着极大的兴趣,为了社区成员能够更好的理解数据中台,同时提高社区成员的整体水平,PowerData 社区规划了此篇文章。

同时也希望能够有更多的小伙伴加入我们,大家一起聊数据、聊技术、共同分享、共同进步。

想要加入社区或对本文有任何疑问,可直接添加作者微信交流。

图:作者微信

参考文献:

[1] 亿信华辰:5000 字带你全面了解主数据管理
[2] DataFun:数仓规范化 - 菜鸟数据模型管理实践
[3] 极盾科技:5000 字详解数据安全治理
[4] Datablau:Datablau 数据治理平台
[5] 艾瑞咨询:2021 年中国数据中台行业白皮书
[6] Gartner:数据中台在中国已经逼近炒作的顶峰

我们是由一群数据从业人员,因为热爱凝聚在一起,以开源精神为基础,组成的 PowerData 数据之力社区。