新知一下
海量新知
5 9 0 0 3 3 0

为大数据平台接入数据质量,构建企业全面数据质量保障体系

御数坊 | 御数有道,独具匠心 2021/09/24 16:33

客户与项目背景

XX省级运营商(以下简称“公司”)大数据平台经过几年建设,已经完成平台搭建并陆续接入O域、B域数据,逐渐构建成为应用级大数据中心。通过数据、工具、资源的全面开放,满足应用的百花齐放,快速、经济地满足合作伙伴高度个性化的数据处理需求,支持合作伙伴安全受控地访问大数据中心的数据和大数据中心自身的经营管理需求。实现安全、高效的数据交换和共享,打造大数据的良性生态圈。

企业数据治理暴露的问题:

随着多域融合,大数据平台跨业务域的数据接入,数据管理复杂度大大增加,各个环节待解决数据问题逐渐显露。接入大数据平台的业务系统众多,数据不清,关系复杂,分布混乱。新建大数据平台缺乏数据标准和模型管理,建设缺乏管控、质量不佳。在数据应用过程中,数据不完整、不准确,数据安全、隐私保护不佳,数据需求和问题响应慢,“数据资产价值”无法保障。对面临的数据问题进行深入的分析后,找到问题的根本原因实际时数据管理能力不足。缺乏专业的数据管理团队,缺乏有效的数据治理方法,缺乏持续可落地的解决方案。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

御数坊提供的整体解决方案

从顶层设计出发,到技术实现落地。根据国际数据管理与数据治理专业组织(DAMA)数据管理知识体系中专业的理论做指导,结合DQAF数据质量框架,依据国家大数据标准化工作组制定的数据能力成熟度评估模型中的指标和要求,设计了适合大数据平台的数据管理机制。

-  认清现状明确发展方向

参照数据管理能力成熟度评估模型( Data Capability Management Maturity Model ,DCMM),针对公司数据管理所处阶段进行定位,通过模型识别能力的优势及不足,明确未来发展方向。

首先,提升数据资产意识,加强各方对数据管控工作的参与。完善数据管理职责,打造数据管理的常态化工作机制、管理制度和流程。明确数据认责机制,实现业务领域内统一数据数据质量管理以及数据架构整体布局。基础能力系统化建设结合具体问题专项整治,指导实际落地。制定数据管理阶段目标及发展蓝图,配置资源逐步完善。

-   成立团队建立管理体系

·  成立管理团队

成立了由公司及领导组成的数据治理委员会,指导大数据平台的数据治理与管理工作方向,为重大数据治理与管理工作作出决策。

由业务支撑系统部牵头成立了数据治理中心,由业务支撑系统部专业人员组成的数据管理团队,专门负责大数据平台的数据管理工作。

成立了跨部门的数据管理执行团队,由业务支撑系统部和网络部专业的各数据领域专家组成,负责日常大数据平台数据质量监控执行及问题的解决。

·  开展数据认责

对数据进行认责,确定数据的所有者、定义者、消费者、管理者和运维者。明确了各认责方的权责。

所有者是需求的提出部门,若是集团规范等外部要求建设的数据,所有方为应用的承建部门。负责牵头组织数据标准定义,配合数据资产盘点,牵头组织数据质量规则制定。

定义者是数据口径的定义部门。若是接入数据,则数据的定义方是数据来源部门。负责对数据口径进行解释,对数据标准和质量要求进行定义。

消费者提出数据使用需求的部门。例如,市场部申请数据使用权限,则市场部是使用者。负责提出使用过程中发现的数据管理问题,配合数据专项治理工作。

管理者就是数据治理中心,负责制定并监督执行数据管理制度和流程,规划和计划数据管理工作,在数据专项治理中发挥组织协调作用。

数据运维团队,负责数据应用开发建设和运维工作,配合数据专项治理工作,落实数据管理制度、流程和专项治理成果。

·  制定管理制度

业支部门作为公司的数据资产管理部门,已经充分意识到数据管理的重要性,并且开始了以基础数据能力提升为起点的数据管理能力建设。针对大数据平台的多方参与进行建章立制,明确组织结构、业务操作流程以及各方认责内容,使数据管理工作有序开展。

  • 《大数据平台数据治理办法(总册)》指导公司大数据平台数据治理工作,主要明确涉及数据治理工作的组织机构及职责划分

  • 《大数据平台数据标准管理办法》,规范数据标准管理相关工作,主要包括数据标准的制定、执行、变更、复审以及数据标准管理工具的建设维护等方面。

  • 《大数据平台数据质量管理办法》,规范数据质量管理相关工作,主要包括质量规则管理、质量监控管理和质量问题管理等方面。

  • 《大数据平台数据资产管理办法》,规范数据资产管理相关工作,主要包括数据开发创建、数据资产注册、数据资产使用、数据资产维护和数据资产注销等方面。

  • 《大数据平台数据模型管理办法》,规范数据模型管理相关工作,主要包括数据模型创建、数据模型变更、数据模型下线以及数据模型核查等方面。

  • 《大数据平台元数据管理办法》,规范元数据管理相关工作,主要包括元数据的识别、获取、加工分析到元数据维护等方面。

  • 《大数据平台数据安全管理办法》,规范数据模型管理相关工作,主要包括数据权限中对账号、认账、授权,安全等级划分、数据加密管理以及审计管理等方面。

-  分析问题制定解决方案

·  分析数据问题

业务支撑系统部收集大数据平台用户提出的各类问题,通过数据问题进行整理,按照问题指向的数据对象、问题分类进行归纳去重。将数据问题归为数据不完整、不及时、不一致、不唯一、不规范等问题类型,分析问题的根本原因。根据问题影响的数据范围、业务范围和系统范围,对数据问题进行影响评估,针对影响最广,问题最突出的接入数据不完整、不及时、不一致的问题优先制定了解决方案。

· 制定数据规范

以大数据平台接入数据质量保障为大数据平台数据质量管理机制试行的起点,制定大数据平台接入数据规范。规范制定过程中,业务支撑系统部参照集团公司下发的《企业级大数据平台省级系统技术规范外部接口分册》、《企业级省大数据平台技术规范数据治理子系统分册》等规范。最终,制定并下发了《企业级大数据平台数据接入规范要求》。本规范要求中明确了大数据平台与省公司各数据源系统之间的责、权关系,规范数据接入管理,提升数据质量。从数据接入情形进行类别划分数据接入类型,然后按照不同类别分别就接口、传输保障、数据完整性、数据及时性等方面提出具体的规范要求。

· 制定命名规范

通过对接口数据文件命名规则进行规范,保障接入数据的规范性和完整性。

1、命名规范

传送到大数据平台的接口数据文件要求遵循统一的命名规范,每个接口文件名唯一。文件命名规则如下:

A[APP]P[nnn]E[nnnnnnnnn]D[YYYYMMDDHHMISS]

A[APP]:作为业务系标识,由数据源端定义。

P[nnn]:nnn为设备编号,三位数字表示。

E[nnnnnnnnn]:“E”固定信息,nnnnnnnnn为文件编号,从000000001开始计数,计满999999999后,文件序列号重置。

D[YYYYMMDDHHMISS]:“D”为固定信息,“YYYYMMDDHHMISS”四位年两位月两位日两位小时两位分钟两位秒,其中“MI“表示分钟,例如00, 01, 02, 03, ……

2、类型规范

处于传送状态的数据文件和校验文件以tmp作为后缀,传送完成的文件以txt作为后缀。

3、序号规范

大数据平台接入数据,同一个接口在同一个时间单元内,多个数据文件必须顺序编号。

·  建立处理机制

业务支撑系统部与网络部共享双方监控系统告警信息,双方维护人员配置对端监控系统中关键告警信息,并建立了双方人员的微信群,做到及时沟通。对于发现的数据质量问题,可及时发现,联动处理,提高处理效率。

建立每月大数据平台数据质量通报机制,按月通报大数据平台各项数据质量情况。通报内容包括各项接入数据规模波动情况、关键话单数据填充率、填充准确率、数据完整性、数据拨测情况等,强调上月遗留问题解决情况以及仍需进一步解决问题。

- 技术创新保障方案落地

· FTP类接入数据

FTP类接入数据质量保障方案是通过建立平台级、过程级、任务级、数据级的数据质量保障机制。在数据接入大数据平台的过程中,在数据流向的各环节设置数据质量检查点。实现多环节、多层次、全方位的数据质量管控方案。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

通过对数据流向各个环节设置检查点,从数据源、采集、入库、数据四层进行监控,共计19项监控内容和告警短信。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

·  SDTP类接入数据

根据SDTP类接口数据接入技术的特殊性和超大数据量的现实情况,设计数据质量保障方案,通过比对数据接入侧合成数据量与数据存储侧相应时间段内落地的数据量,及时发现SDTP类数据中数据丢失的数据质量问题。提醒运维人员及时进行处理,避免产生继发数据质量问题。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

关键技术要点

- 网络质量保障方案

为了保障大数据平台与各业务系统服务器间的网络连通性,在大数据平台侧部署心跳探测脚本,与大数据平台有数据交换的各业务平台服务器,进行网络心跳监控,若发现网络异常(网络丢包率大于1%)及时向运维人员推送监控告警短信。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

具体方案是,大数据侧配备一台网管服务器,在该服务器上部署心跳探测脚本,针对大数据对外业务地址/浮动地址进行ping测试。

例如在2017年8月26日,通过短信告警及时发现一台服务器网络质量出现严重丢包,维护人员及时处理避免了一次数据处理积压问题。具体告警短信内容如下:

“时间201708261520,10.210.118.40PING100次10.204.188.10丢包4%”。

- 接入过程保障方案

1、文件序号稽核

大数据平台汇总接收的接口数据文件,对同一个接口,同一时间单元(1天之内,时间可自定义)内文件序号的连续性进行稽核。若校验失败,计数序号有缺失。大数据平台系统将缺失文件名保存到APP_xuhao_fail_YYYYMMDDHH.txt(APP代表数据提供方)文件。文件内容为YYYYMMDDHH|A[APP(APP代表数据提供方)]|P[nnnn]|缺失序列号(如果为1,则只写1,不会写000001)。若出现计数序号缺失,则触发告警短信通知维护人员。

2、数据传输过程监控

通过在BOMC监控系统中配置数据断传监控、关键进程监控、积压文件监控、磁盘占用率监控、关键文件夹的文件数监控等。保障数据传输过程,一旦发生异常,BOMC监控系统自动发出告警,提醒运维人员及时处理。

-  FLUME组件工具保障方案

对FLUME组件工具日志进行监控,目前已经实现了告警信息监控和滚动日志监控。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

告警信息监控。通过BOMC系统自动监控FlUME组件工具日志中的告警信息,BOMC系统监控到告警信息后,自动短信通知运维人员,提醒运维人员及时处理。

滚动日志监控。对日志滚动情况的监控主要针对FLUME在节点状态正常,但是功能异常的情况(僵死状态)的监控手段。每5分钟一次,对日志文件总行数做统计。若发现行数没有变化,则下发日志不滚动告警短信,通知运维人员及时处理。

-  任务流程保障方案

大数据平台当前的各类任务流程多达数百个,在业务高峰期更是高达一千多个。任务流程多且存在先后依存关系,在实际任务流程调度过程中,调度失败、执行超时等情况发生时,对后续任务调度将造成连锁影响。若处理不及时,会造成任务流程大面积任务积压,影响业务支撑能力。为解决此问题,大数据平台针对每类流程制定流程报错/超时监控。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

流程报错/超时信息,会记录在BDI的运行日志中,通过BOMC系统对BDI日志进行监控,实现及时发现任务流程/超时,并实时发出告警信息,提醒运维人员及时处理。

- 数据延时监控方案

数据延时监控方案是针对数据内容自身的延迟稽核监控。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

本方案是针对2/3/4G DPI数据文件中的数据文件到达大数据平台与用户行为实际发生时间出现较大偏差的一项监控。通过配置BDI流程,定期读取SPARK程序落地的2/3 /4G DPI文件,分析业务发生时间,并对比流程开始时间。当两者时间差超过预定阈值,则触发短信进行告警。

考虑到现有数据量大,文件以2分钟为间隔落地到文件的现状,目前采取以30分钟间隔对落地数据进行分析。阈值暂设置为10分钟,后续根据业务要求进行优化调整。该稽核方案主要保障对实时性要求比较高的业务支撑,例如实时位置类应用。

-  数据量波动监控方案

数据波动告警对于及时发现系统中出现的非显性问题有重要作用。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

每天统计各类数据单位周期的数据量,以每周期平均数据量作为基准值,每日统计数据量与基准值进行对比,浮动比例超过10%,则触发BOMC系统进行短信告警。

例如,在2017年8月初家庭宽带数据出现明显的数据量下降。大数据平台维护人员在次日及时发现,通过与数据源端维护人员了解,是由于家庭宽带系统升级割接影响导致。

-  关键话单数据质量监控方案

本方案目前主要对ODS层的2/3/4G  DPI 中的15类关键话单及13类固网DPI话单进行了的114个关键字段进行了填充率及填充率准确率进行了效验。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

通过创建hive表,创建BDI流程,每两小时随机抽取部分HDFS文件获取关键字段数据加载到hive表中,通过创建稽核效验规则,然后通过BDI调度工具每两小时进行校验一次,校验规则为:正确填充总数/数据总条数*100% ,如果结数小于90%,则进行短信告警。月关键字段正确填充率则通过每个关键字的每月总稽核正确填充总数/每个关键字段稽核总数得出每个关键字段的总正确填充率。

-  端到端数据流监控方案

采用定期人工拨测的方式,实现端到端数据流监控,主要监控除数据中间处理环节之外的端到端的数据是否完整。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

业支部每周人工对4G DPI数据的Http话单及固网日志(家宽/WLAN)进行拨测。发现问题及时沟通协调解决,并在每月数据质量报告中进行通报。业支部正在考虑通过自动拨测平台加大拨测力度及对比分析能力。

-  SDTP类接口数据质量保障方案

根据SDTP类接口特征——数据源将流式数据实时送到协议管道中,管道的两端是数据源和大数据侧的HDFS。在管道的入口和出口即管道两端对流入和流出的数据数量进行稽核,保障两个平台数据对接后数据的一致性和完整性。

新知达人, 为大数据平台接入数据质量,构建企业全面数据质量保障体系

分别在数据接入侧和数据存储侧进行部署。

数据源端在合成流式数据后产生合成日志,日志每隔20S打印一次该时刻之前合成的数据行数。日志文件按天保存,分话单类型汇总数据行数。每次统计的数据行数记录在以该天命名的日志文件中,通过日志可以计算出指定时间段内合成的数据记录行数。

在大数据侧通过落地到HDFS上的文件生成时间计算相应时间段内接收的数据记录行数,并与从日志计算得出的记录数做比对,获得管道两端的数据量差值。

4G DPI的数据量每天达到23T,平均每个小时的数据量将近1T,通过命令cat |wc –l方式已无法统计数据行数,大数据侧通过配置BDI流程,对数据的数据行数做统计,稽核时间周期设置为1小时。大数据稽核服务器,从数据源日志文件内计算小时段数据行数,通过BDI运算HDFS落地数据数量,得出的两个数据通过shell脚本进行比对。根据设置的阀值,触发BOMC告警。

创新点

-  先进理论指导,科学体制建设

参照数据管理能力成熟度评估模型,针对公司大数据平台数据管理所处阶段进行定位,通过模型识别能力的优势及不足,明确未来发展方向。提升数据资产意识,加强各方对数据管控工作的参与度。完善数据管理职责,打造数据管理的常态化工作机制、管理制度和流程。明确数据认责机制,实现业务领域内统一数据数据质量管理以及数据架构整体布局。基础能力系统化建设结合具体问题专项整治,指导实际落地。制定数据管理阶段目标及发展蓝图,配置资源逐步完善。

-  打破部门界限,成立虚拟团队

成立了由公司决策层组成的数据管理决策团队、由业务支撑系统部牵头组成的数据管理团队,以及业务支撑系统部和网络部组成跨部门的数据质量管控执行团队。

开展全员数据认责,数据管理责任落实到部门。实现数据管理各领域专业人员分工协作,专项负责的团队结构,共同承担大数据平台数据质量管控工作。

-  全面管控方案,先进技术落地

根据公司大数据平台建设的实际情况,以及当前面临的关键数据问题。针对数据接口的不同类型,发挥XX省级运营商技术优势,通过分层次、分阶段的形式,在大数据平台接入数据的数据传输的各个环节设置检查点,通过DBI流程配置监控任务,配合BOMC系统,实现全方位数据质量监控保障。

经验总结

本方案两个方面的经验值得推广:

第一,分析问题的角度有所转变。跳出以往“就事论事”的思维定式,拨开表象,寻找问题根本原因。引入国际权威的数据治理理念,借鉴其他行业领域的先进经验,发现问题的根本原因,制定全方位系统化的解决方案。

第二,解决问题的方式有所突破。从顶层架构入手,逐级细化责任,多方配合分工,先进技术实施落地。以现有人力资源为基础,整合各部门专业能力组成虚拟团队共同承担大数据平台数据质量管控任务。基于大数据平台DBI流程设置数据质量检查点,监控告警信息推送至BOMC系统,推送告警短信并处理。

更多“大数据”相关内容

更多“大数据”相关内容

新知精选

更多新知精选