跳至主要內容

【中台】数据质量管理落地实施

PowerData大约 9 分钟数据中台

在企业数字化转型浪潮下,传统的质量管理手段已无法应对数字化转型中的数据质量管理需求,我们需要探索出一条数据独有的质量管理体系应对新的需求。

本篇文章以数据质量管理为目标,探究数据质量背后的逻辑,并通过管理与技术手段进行落地。

一、概述

1、数据质量

数据质量就是通过一组维度来评价数据的方式,如同判断商品的好坏一样,数据也有评价标准。

数据是对现实世界的反映,如果当前数据代表的意义与现实世界不符,则认为数据出了质量问题。

2、质量问题原因

追根溯源,导致数据出现质量问题的原因有很多,总的来看,主要有业务、技术、管理、基础设施四个方面:

  • **业务端:**业务源系统变更(源系统数据库表结构变更、源系统环境变更)、业务端数据输入不规范等;

  • **技术端:**数据开发任务中各种任务的流程、参数、配置等出错;

  • **管理端 :**认知层面缺乏质量意识、缺乏有效的数据质量问题处理机制等;

  • **基础设施:**物理资源不足、基础设施不稳定等;

3、数据质量评判标准

  • 准确性:
    数据描述的信息与客观现实是否相符,准确性是数据质量中最重要的评价标准。

  • 完整性:
    当前数据是否存在丢失、关键字段为空、或者不可用的情况,主要包括:实体完整、属性完整、记录完整和字段值完整。

  • 一致性:
    多源数据是否遵循了统一的规范,数据集合是否保持了统一的格式。

  • 规范性:
    数据是否遵循预定的语法规则并符合其定义,例如数据的类型、长度、格式、取值范围等。

  • 唯一性:
    当前数据是否有重复,是否存在唯一标识保证数据的唯一性,包括:主键唯一,实体唯一,事实唯一。

  • 及时性:
    数据从产生到可以查看的时间间隔。数据分析对于及时性要求不高,但如果数据分析周期过长,可能导致分析结论失去借鉴意义。

图:数据质量评价标准

4、数据质量管理

数据质量管理(Data Quality Management),是指对数据生命周期的每个阶段可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

能够确保数据质量的管理活动,我们称其为数据质量管理。

二:意义

下图即可说明:

图:数据质量是统计的生命

三:当前痛点

1、决策导向不可控(重中之重)

目前国内企业掀起了一波数字化转型的浪潮,数据作为生产要素的价值也愈发凸显出来。依赖错误的数据做出的决策,必然会将企业导向错误的方向。在此背景下,数据质量被越来越多的企业管理者重视。

2、数据使用成本高

数据质量较低,导致在数据使用过程中,开发人员需要反复对数据进行校准(准确性)、补全(完整性)、校对(一致性)、转义(规范性)、去重(唯一性)等操作,确保结果真实可用。数据使用成本激增。

3、故障恢复成本高

数据质量导致的问题,最后都会反馈到员工以及用户之中,到时无论是排错,修复,决策调整,都会占用开发 - 业务 - 管理人员大量的时间精力,增加人力成本开支。

四:主要目标

1、成本可控

高质量的数据在开发时可以省去数据清洗与预处理的成本,提高开发效率并大幅降低故障率,从而节省出大量的开发与使用成本,减少故障恢复的投入。

2、结果可靠

高质量的数据产出可靠的统计结果与报表。

3、协作高效

依据可靠的结果进行协作,降低了校对以及沟通成本,提高协作效率。

五:数据质量管理落地实施

1、痛点为导向

首先需要明确一点,数据质量在绝大多数的数据平台建设中,都不会作为前期建设的主要重点。

数据质量的建设一般不会以需求为导向,即在平台建设过程中就规划相关内容并进行开发迭代,平台建设的前期一般以业务产出为主。

平台建设完成后,数据质量相关痛点愈发凸显,导致平台遭受质疑,数据使用成本升高,此时数据质量才会被重点关注,并投入大量精力去进行整改优化。

2、事前规范

1)规范制定
在数据流程正常运行的前提下,大部分数据质量问题均是因为没有遵循开发规范导致。我们可以根据数据质量特性制定相关开发规范并在事前进行遵守。

  • 数据模型规范:
    数据结构清晰、分层明确 - 层级依赖、高内聚 - 低耦合 - 可扩展、规范化 - 反规范化等。

  • 元数据规范:
    字段描述、字段类型 - 长度 - 取值范围、枚举范围、主键唯一等。

  • 命名规范:
    表、字段名称,项目名称,文件名称、函数名称、编码规范等。

  • 安全规范:
    隐私字段脱敏、权限层级管控等。

  • 上线规范:
    唯一性校验、试运行正常、数据条数校验、NULL 值校验等。

2)规范核验
针对已经制定的开发规范,需要采取自动化或人工手段进行规范校验,并提醒相关责任人进行整改,否则规范只是流于表面。

3、事中监控(数据质量监控系统)

图:数据质量监控系统

数据质量的落地实施,最核心还是需要通过数据质量监控系统,通过自动化的质量检核方式,极大的减少人力的投入和过程干预,提升效率,减少误差。围绕完备性、真实性性、一致性、及时性等指标监控分析数据质量问题并进行整改优化。

1)监控规则制定
引用系统定义的校验规则对系统表、字段进行多角度的数据质量监控,对系统关键业务数据的质量情况进行全方位把握,监控规则分为字段级与表级监控,具体包含以下几种:

  • **唯一值监控:**监控某个字段值是否唯一,例如 ID,如果唯一值字段出现重复数据,则代表数据质量异常。

  • **空值监控:**某个字段必须有值,例如付款记录中的金额。此规则监控此类字段是否为空,为空则判断异常。

  • **指标波动监控:**某个指标例如 GMV,如果当天指标比昨天暴涨 10 倍,大概率为异常。

  • **取值范围监控:**例如年龄字段,值是否超过常规范围。枚举字段,值是否超过定义范围。

  • **记录数量波动监控:**如果当前表日均增加 1W 条记录,某天新增超过 2W 条,大概率出现异常。

  • **数据规范校验:**字段格式规范(例如时间字段是否按照指定格式),

2)监控异常告警
对上述监控规则中,出现异常的任务进行告警至责任人。包括但不限于:微信、钉钉、飞书、邮件、短信、手机等方式。

3)异常修复及记录
责任人接收到异常告警后,及时对数据任务进行排查以及修复,同时对当前异常进行记录用于后续整改。

4、事后改进

事实上,再严格的预防措施和监控都无法完全避免数据质量问题的发生,事后的管理和评估就尤为重要了。

要想真正解决数据质量问题,就要明确业务需求并从需求开始控制数据质量,并建立数据质量管理机制。

从业务出发做问题定义,由工具自动、及时发现问题,明确问题责任人,通过邮件、短信等方式进行通知,保证问题及时通知到责任人。跟踪问题整改进度,保证数据质量问题全过程的管理。

六:评价体系

在公司实施了一系列的数据质量管理策略之后,可从以下维度对目前数据质量管理工作进行评价:

数据完整性
☆ 考量数据项信息是否全面、完整、无缺失
★ 指标公式:表完整性和字段完整性的平均值

监控覆盖率
☆ 确保数据遵循统一的数据标准或规范要求
★ 指标公式:已监控作业个数 / 作业总个数

告警响应度
☆ 通过日常管理、应急响应,降低或消除问题影响,避免数据损毁、丢失
★ 指标公式:已处理告警个数 (本周)/ 告警总个数 (本周)

作业准确性
☆ 考量数据是否符合预设的质量要求,如唯一性约束、记录量校验等
★ 指标公式:1 - 告警作业个数 (本周)/ 监控作业总个数

作业稳定性
☆ 考量作业的运行稳定性,是否经常报错,导致数据事故
★ 指标公式:1 - 错误作业个数 (本周)/ 作业总个数

作业时效性
☆ 考量数据项信息可被获取和使用的时间是否满足预期要求
★ 指标公式:延迟的高价值作业个数 / 高价值作业总个数

作业性能分
☆ 考量作业的执行效率和健康度,诊断作业是否倾斜等性能问题
★ 指标公式:1 - 危急作业个数 (本周)/ 作业总个数

参考文献:

[1] 数据学堂: 数据质量评价体系

[2] 人民日报: 数据质量是统计的声明

[3] 亿信华辰: 数据标准及质量管控平台

[4] 网易: 浅谈网易大数据平台下的数据质量


我们是由一群数据从业人员,因为热爱凝聚在一起,以开源精神为基础,组成的 PowerData 数据之力社区。