网站首页 公文大全 个人文档 实用范文 讲话致辞 实用工具 心得体会 哲学范文 总结范文 范文大全 报告 合同 文书 信函 实用
  • 汇报体会
  • 节日庆典
  • 礼仪
  • 毕业论文
  • 评语寄语
  • 导游词
  • 口号大全
  • 其他范文
  • 百花范文网 > 实用范文 > 其他范文 > 面向WDLC的数据质量智能监控研究及应用

    面向WDLC的数据质量智能监控研究及应用

    时间:2023-02-23 10:45:07来源:百花范文网本文已影响

    高洪美,李保东

    (上海计算机软件技术开发中心,上海 201112)

    在大数据时代,高质量数据是发挥数据价值的前提。数据质量是数据治理的重要组成部分,面对复杂、多样、多变的大数据,需要时刻保持高质量数据,方能做出准确、高效的决策[1-2]。因此,数据质量相关研究越来越受重视,数据质量的评估与监测在高校、运营商、电网等诸多领域都有广阔的应用前景。袁满等[3]提出了一种基于规则的数据质量评价模型,定义了七项数据质量评价指标和十五类数据质量约束规则,并构建了实现功能的元数据模型。杨冬菊等[4]提出了基于元数据模型控制的ETL集成模型,有效保证数据集成后的数据质量。张晓冉等[5]提出了通用数据质量评估模型,定义了从通用数学模型到本体模型映射的转换规则,并最终实现了对不同来源、不同格式的数据质量的检测与评估。朱玲等[6]通过基于日志详情、统计报告、样本测试三种评估手段,对高校图书馆电子资源使用监控与统计系统的数据质量进行评估。巫莉莉等[7]从多个维度出发,设计了高校数据治理中数据质量改进的方法和规则,提出了相关数据质量提升流程。杨迪等[8]提出了一个数据质量监控保障体系模型,建立了质量管理域、评估域和监控域,实现对电信运营商数据生产线的各个环节质量的管理、评估、监控。黄彦等[9]基于分布式架构和通信监听技术,搭建了一个多源数据比对平台,显著提高了对电网EMS 系统的数据质量控制效率和故障诊断效率。张志亮等[10]针对数据校验的索引存储机制,设计了并行化校验规则执行算法,显著提升了电网数据质量校验处理性能。彭建新[11]设计了基于频率的数据特征值采集方法及基于支持向量机的数据智能分类算法,实现对机房数据质量管理和分析。包盼盼等[12]为提升智能化软件开发相关数据集的数据质量,从项目作者可信度、项目健康度、源码质量、功能常用性、功能原子性五个方面,提出一种针对开源大数据的代码数据质量评估方法。

    通过研究分析可知,目前学者对数据质量监控的研究多聚焦于数据质量的评估规则、模型和方法,并针对具体行业或场景进行应用。实际上,组织的数据质量问题存在于数据全生命周期的各个环节中,且数据价值随着数据生命周期而发生变化,需要做好数据质量的实时动态监控,建立全生命周期数据质量评价体系,保障全生命周期数据质量,以实现全面的数据质量提升[13-15]。因此,本文提出了面向数据全生命周期的数据质量智能化监控模型,从数据的采集、接入、集成、处理、使用、归档等环节建立全面、规范的数据质量评价体系和监控流程,并引入人工智能算法进行数据质量智能预测,达到数据全生命周期的质量评估和智能化监控的目标[8]。最后,通过研发面向公共安全的数据质量监控分析平台,以治安卡口分析和旅客入住登记两个应用场景验证了该模型的可行性和有效性。

    数据全生命周期指数据从采集到销毁的整个过程,通常包括数据采集、数据接入、数据集成、数据预处理、数据使用、数据归档、数据销毁等环节[16]。在线数据是持续流动的,数据质量问题可能出现在数据生命周期的任何环节,进而流转到后续环节,影响整个数据应用效果。

    本文建立了包括评价标准层、评价体系层、全生命周期数据层(WDLC 层)和监控体系层的四层数据质量监控模型,如图1所示。本模型面向除数据销毁外的全生命周期,以数据质量评价标准为基础底座,以数据质量评价体系为重要指标和方法支撑,以全生命周期的数据流转为重要环节,以数据质量智能化监控告警体系为技术建设核心。

    图1 数据质量智能监控模型

    1.1 评价标准

    参考国家标准《信息技术数据质量评价指标》[17],数据质量评价标准主要是基于数据的完整性、准确性、一致性、及时性、规范性等多个维度。

    1.1.1 完整性

    完整性是指数据是否完整,是否存在缺失的情况,数据的缺失主要包括记录的缺失和字段的缺失。完整性是数据质量最基础的保障,监控时需要考虑数据条数及某些字段的取值是否缺失。

    1.1.2 准确性

    准确性是指在特定使用环境中,数据正确地表示一个概念或事件相关属性真实值的程度。准确性通常包含描述准确性、形式准确性及位置准确性。描述准确性指实体准确性及分布准确性等要求,形式准确性指长度准确、精度准确、类型准确、取值范围准确及代码值域准确等要求,位置准确性指记录唯一及字段唯一等要求。

    1.1.3 一致性

    一致性指在特定使用环境中,数据之间无不一致且连贯的属性。数据不一致的情况,多出现在系统达到一定的复杂度后,由于计算口径不同,同一指标多处计算。数据一致性通常包括存在一致性、等值一致性、逻辑一致性及变更一致性[18]。

    1.1.4 及时性

    及时性是指在特定使用环境中,数据表征其正确寿命的程度。在确保数据的完整性、准确性和一致性的基础上,数据应当能够及时产出,这样才能体现数据的价值。及时性通常包括基于时间段的正确性、基于时间点的及时性及时序性。

    1.1.5 规范性

    数据规范性主要是指数据格式的规范性,包括数据字段的数据类型、字段长度、取值范围、业务描述等的规范。常需要进行规范性校验的字段包括:身份证、手机号码、邮箱、邮政编码、固定电话、Ipv4地址、Ipv6地址、Mac 地址、纯中文、纯英文、数值、日期、长度范围等[19]。

    1.2 评价体系

    数据质量评价体系主要基于数据质量评价标准形成,可对数据质量进行全方位评估。数据质量评价体系主要包括数据质量规则库和数据质量检查方法库。数据质量规则库提出了对数据质量和传输质量的规范性要求,而数据质量检查方法是判断数据是否符合数据质量规则的重要手段。

    1.2.1 数据质量规则

    数据质量规则按照规则的适用范围,可分为通用质量规则和业务质量规则。通用规则是指在任何业务场景下都适用的规则。例如,居民身份证号码的长度为18位,从左至右依次为:数字地址码(6 位)、数字出生日期码(8 位)、数字顺序码(3 位)和数字校验码(1 位)。业务规则是指与业务紧密相关的规则,只在特定的业务条件下可以适用。例如,统计某应用的会员数量,应统计的是当前时间戳下,支付了会员开通费用,且会籍仍未到期的用户数量。

    1.2.2 数据质量检查方法

    数据质量检查包括常规检查和智能检查。常规检查是指根据规则库中已有的规则,直接生成相应的检查方法,配置好检查数据源、检查周期等参数,应用于全生命周期的数据质量监控。数据智能检查可通过长短时记忆神经网络(LSTM)[20]、门控循环单元神经网络(GRU)[21]等深度学习算法进行,主要是以历史监控中的传输记录条数作为训练源,对监控任务进行深度学习训练,形成智能告警决策算法模型。根据该模型可预测未来一段时间内传输的数据量,并与实际传输数据量进行对比,对数据量传输是否异常进行决策,并对异常数据传输情况发出预警。

    1.3 WDLC监控

    在全生命周期数据质量监控中,基于各数据流转环节的特点,兼顾监控成本与效率,应对数据生命周期中的不同环节,考虑不同的质量监控策略,如数据归档环节数据使用频率极低,做到定期检查即可。全生命周期数据质量监控针对各环节侧重于不同的评价维度。

    1.3.1 数据采集环节

    应聚焦于数据的完整性、准确性、规范性和及时性。数据采集应遵循“应采尽采”原则,采集完成后及时校核、上传。

    1.3.2 数据接入环节

    应聚焦于数据的完整性与及时性。数据完整性主要包括数据量的增减及部分记录属性缺失。数据量的增加意味着可能会出现重复上报或者异常数据侵入等情况,减少则意味着可能出现数据丢失。采集的数据应定时接入系统,确保数据及时更新。

    1.3.3 数据集成环节

    应聚焦于数据的完整性与一致性。数据集成应确保不同来源、格式、性质的数据完全抽取,且数据存在一致、等值一致、逻辑一致、变更一致。

    1.3.4 数据预处理环节

    应聚焦于数据的一致性、完整性和准确性。数据预处理环节对数据进行清洗,是数据生命周期中非常重要的一环,务必确保进入下一环节的数据一致、完整且准确。

    1.3.5 数据使用环节

    主要强调对外提供数据,一般是从中间表中计算或直接取得,因此在这一环节,应聚焦于数据的准确性和及时性。

    1.3.6 数据归档环节

    数据不再经常使用,价值较低,考虑到监控效率及成本,不需要实时监控,只需定期检查数据的完整性、准确性即可。

    1.4 监控体系

    数据质量监控体系包括质量监控、质量分析、智能告警、问题反馈四个环节。质量监控主要针对数据各个环节进行数据质量监控,并通过人工智能算法对历史数据进行分析,预测可能存在的数据质量问题,达到数据质量预判的目的。质量分析是对发现的数据质量问题进行定位分析、原因分析、关联分析、影响分析等,为数据质量整改提供依据。智能告警主要是结合人工智能算法,对数据质量问题进行告警等级判断,并发出告警通知。最后通过问题反馈环节告知相关人员进行数据质量分析和解决,从根本上解决数据质量问题。

    针对全生命周期的数据质量监控模型,建立规范的监控流程,如图2所示。按照监控过程中的具体作用机制,可以将流程分为规则指标层、实时监控层和数据生命周期层。

    图2 全生命周期数据质量监控流程

    监控流程如下:

    Step1:监控任务配置。按照数据质量监控的业务要求,对监控任务进行配置。具体的配置项包括:监控任务名称、监控周期、监控数据节点、监控规则指标、质量告警等级以及所采用的检查方法等。若缺少对应的监控规则指标,则按照数据质量的业务要求,新增相应的规则指标至规则指标库,并对检核方法库、智能算法库进行必要补充。

    Step2:执行质量监控任务。面向数据全生命周期对不同环节中数据质量、数据环节间传输质量启用监控任务。若无数据质量问题,则本次监控结束;
    否则,说明数据质量存在问题,进入Step3。

    Step3:问题告警、分析、反馈。针对发现的数据质量问题形成告警,并对问题来源、产生原因、影响程度等进行分析,最后将数据质量问题通过微信、短信、邮件等多种方式及时推送给相关人员,并进入Step4。

    Step4:问题整改。相关人员在接收到告警推送后,针对发出告警的数据质量问题,依照数据质量规范,对问题进行整改。当数据质量问题整改完毕,则本次监控流程结束。

    基于全生命周期数据质量监控模型和流程,设计数据质量监控分析平台架构,如图3所示。该平台包含数据层、功能层与展示层。其中,数据层主要实现数据资源的对接,功能层主要实现质量规则库管理、知识库管理、质量监控、问题告警等功能,展示层主要通过可视化方式呈现数据质量分析情况、数据质量评分、数据质量报告、监控分析情况等。

    图3 全生命周期数据质量监控流程

    3.1 数据层

    数据层主要包括数据采集、数据接入、数据集成、数据预处理、数据使用、数据归档等全生命周期各环节的数据,并且支持SQL Server、MySQL、Oracle等多种数据库类型。

    3.2 功能层

    功能层是数据质量监控分析平台的核心部分,将数据质量监控的运行机理流程化和智能化,主要包括质量监控、问题告警、规则库管理、知识库管理等功能模块。

    3.2.1 质量监控

    数据质量监控模块主要包括参数配置、质量检查、智能预测、问题分析等功能。其中,参数配置实现对监控的数据源、数据生命周期各环节、质量规则、监控频率等的配置;
    质量检查则根据已配置的监控参数,调取合适的检查方法进行数据质量检查;
    智能预测是通过长短时记忆神经网络(LSTM)和门控循环单元神经网络(GRU)算法建立智能告警决策算法模型,预测未来7天每个小时间隔内传输的数据量,与实际该小时间隔内的传输数据量进行对比,对数据量传输是否异常进行决策,并对异常数据传输情况发出预警,达到提前预判的目的;
    问题分析是对检查发现的数据质量问题进行分析,实现质量问题的归类、分级、统计、溯源。

    3.2.2 问题告警

    当检查发现数据质量问题时,平台必须及时进行问题告警。问题告警模块主要包括阈值配置、告警日志、告警分析、消息推送等功能。其中,阈值配置是对数据质量状况的临界值进行配置,通过阈值将数据质量状况划分为多个等级,以此确定告警方式(如表1所示);
    告警日志是对告警历史情况的记录,包括告警内容、告警类型、告警问题位置、告警时间等要素;
    告警分析则是根据告警日志对历史告警情况进行分析,包括告警问题的溯源、告警情况的统计分析等;
    消息推送是根据数据质量问题类型和告警等级,采用微信、电话、短信、邮件等多种方式将告警结果推送给相关人员。相关人员收到告警消息后,应及时采取相应的处理措施对数据质量问题进行整改,以促进数据质量进一步提升[22]。

    表1 决策阈值与告警类型对照表

    3.2.3 规则库管理

    数据质量规则库是数据质量检查的基础,其管理包括质量规则查询、定义、配置以及修改和删除等维护功能。一条完整的质量规则描述必须包括规则名称、规则类型、规则逻辑、创建时间、更新时间等要素,如图4所示。

    图4 数据质量规则示例

    3.2.4 知识库管理

    知识库用于存储数据质量问题处理的相关解决方案、结果和经验,当其他用户遇到类似问题时,可通知知识库辅助解决问题,提高解决效率。知识库管理包括知识库的查询、创建以及更新、删除等维护功能。

    3.3 展示层

    展示层主要是通过采用直观的图形化方式对数据质量监控相关的统计和分析结果进行可视化展示,主要包括质量分析、质量评分、质量报告和监控分析等功能展示。其中,数据质量分析展示包括数据质量问题详情、数据质量问题分布分析、数据质量定位分析、数据质量排名分析等内容;
    数据质量评分展示包括数据质量综合评分、评估星级、评估维度、评估时间等内容;
    数据质量报告展示将数据监控的范围、环节、维度以及各环节和维度的数据质量情况等内容以报告的方式呈现给用户,用户可以在线打印和下载该报告;
    数据质量监控分析展示包括数据质量排名、告警数量统计、告警等级情况分布统计、告警情况分析等。

    基于数据质量监控分析平台设计架构,本文面向公共安全领域研发了数据质量监控分析系统,该系统面向治安卡口分析和旅客入住登记两个应用场景进行应用验证。

    4.1 数据质量监控分析系统

    通过数据质量分析系统,提供告警数量、近7日告警监控情况、警告详情等可视化展示功能,同时提供数据质量的危险等级,警报类型以及警报方式,便于业务人员和技术人员及时发现并解决数据质量问题。数据质量监控分析系统主页如图5所示。

    图5 数据质量监控分析系统主页

    4.2 数据质量监控分析结果

    以治安卡口为例,治安卡口作为道路交通现场监测系统的重要监测对象,依托收费站、交通或治安检查站等卡口点,对所有通过该卡口点的机动车辆进行拍摄、记录与处理,其数据质量对交通道路安全分析判断至关重要。治安卡口数据质量监控分析包括对卡口设备的数据传输质量监控和对卡口拍摄内容的实时数据质量监控,如卡口设备存在数据延时传输问题(见图6左图),机动车牌照与登记的不符(见图6右图)。

    图6 治安卡口数据质量监控分析结果

    4.3 数据质量问题分布及整体评估

    以旅客入住登记场景为例,旅客入住登记和注销离店的数据质量的好坏对维护社会治安具有重要意义。通过制定相应的数据质量评价规则对旅馆入住登记数据质量进行实时监控,如某房间在某一时间区间内只有登记入住信息,而没有注销离店信息,且累计登记人数超过4人,则判定为入住人员数异常。旅馆入住登记数据质量监控实现了入住登记数据质量监控、旅馆质量问题分布分析展示以及整体数据质量评分等功能,如图7和图8所示。

    图7 旅馆入住登记数据质量问题分布

    图8 旅馆登记数据整体质量评估

    为实现组织的全面数据质量提升,规范数据质量监控过程,本文提出了面向全生命周期的数据质量智能化监控模型。模型以多维度的数据质量评价标准为基础,建立全面的数据质量规则以及数据质量检查方法,并融入人工智能算法建立数据质量智能检核方法,从数据的采集、接入、集成、处理、使用、归档等各环节,有针对性地选择数据质量评价维度,对数据质量进行全生命周期的智能化、流程化监控。最后,本文通过设计数据质量监控分析平台架构,研发面向公共安全领域的数据质量监控分析平台,有效验证了该模型的可行性,有助于组织实现全生命周期的数据质量监控与提升。该模型仍存在一些难点,如数据质量的智能预警研判的精准性,后续还有待进一步研究。

    猜你喜欢 生命周期规则环节 全生命周期下呼吸机质量控制现代仪器与医疗(2022年2期)2022-08-11撑竿跳规则的制定小猕猴智力画刊(2022年3期)2022-03-29数独的规则和演变数学小灵通(1-2年级)(2021年4期)2021-06-09必要的环节要写清小学生学习指导(高年级)(2021年3期)2021-04-06桥式起重机使用环节重大危险源辨识研究中国特种设备安全(2019年11期)2020-01-16从生命周期视角看并购保险中国外汇(2019年13期)2019-10-10在农民需求迫切的环节上『深耕』今日农业(2019年16期)2019-09-10民用飞机全生命周期KPI的研究与应用民用飞机设计与研究(2019年2期)2019-08-05企业生命周期及其管理消费导刊(2018年10期)2018-08-20让规则不规则Coco薇(2017年11期)2018-01-03

    相关热词搜索:监控 面向 质量

    • 范文大全
    • 说说大全
    • 学习资料
    • 语录
    • 生肖
    • 解梦
    • 十二星座