2.7 行为管控——优化增量数据质量
数据治理项目试运行和验收的同时,企业对于数据的治理工作就正式进入了对数据的日常运维阶段,也是数据生命周期的核心阶段。
纯技术手段的数据质量验证并不能完全满足现阶段企业对数据质量的要求。因此,需要通过行为管控的数据质量优化方式,解决更深层次数据质量问题(如错别字、类别选择错误等),为企业精细化管理以及精确化分析提供基础。即:在技术手段验证数据质量的基础上对数据操作人员的行为进行管控,从而优化数据质量;通过大数据行为分析,检测、探知、处理已生成的数据,进一步优化数据质量。
增量数据相对存量数据而言,二者以数据治理项目中数据治理平台正式上线的时间节点来划分。数据治理平台上线前,企业已有的所有数据都是存量数据;平台上线后新增的数据都是增量数据。另外,只有增量数据的质量需要再优化,存量数据只需要在数据治理项目中进行一次性清洗即可。
针对增量数据质量可以通过行为管控进行优化的阶段有两个,一是在数据采集/验证(数据维护/审核)阶段,二是在数据生成、分发阶段,数据全生命周期如图2-1所示。

图2-1 数据全生命周期
通过行为管控的方式解决数据质量问题的原则和方法:
1)数据维护阶段,依据相关业务岗位的人员录入本业务岗位相关数据的原则,把整条数据信息拆分成多个(或组)属性字段,通过将各专业属性字段(或组)分别授权给相关业务岗位人员进行维护实现优化增量数据质量;
2)数据生成后,通过数据治理平台的大数据行为分析技术,对数据质量进行分析、监测,探知已存在于业务系统中的数据质量问题,并对问题及时进行处理;
3)不断优化基于机器学习的数据质量判断模型,逐步提高数据质量问题的探知能力。