数据治理:如何实施数据清洗,提升数据质量?

本文转自:中国发展网
数据治理:如何实施数据清洗,提升数据质量?
文章图片

文章图片

一、什么是数据清洗?
在数据治理工作中 , 为了彻底解决企业的数据质量历史遗留问题(数据不一致、不完整、不合规、数据冗余等) , 必须对存量数据进行改造 , 实施“数据清洗”工作 。
“数据清洗(Data cleaning)”一词 , 是数据治理领域中的专业术语 。从字面意义上理解 , “数据清洗”就是将数据上“脏”的部分清洗干净 , 让数据变得干净整洁可用 。从专业角度来说 , 对于企业中的存量(历史)数据 , “数据清洗”能够补充其缺失的部分、纠正或删除其不正确的部分、筛选并清除其重复多余的部分 , 最后将其整理成便于被分析和使用的“高质量数据” 。
中翰将数据清洗的工作内容总结为以下两点:
● 问题数据的补充、调整;
● 冗余数据的查重、映射 。
二、数据清洗的流程和策略
企业的数据质量问题经过发展多年的累积 , 清洗难度较大 。要彻底“洗掉”企业存量数据中的“脏数据” , 且有效避免“脏数据”再次出现形成污染 , 必须按照一定的原则和方法开展实施工作 。
对此 , 中翰凭借多年的工作经验 , 不仅总结制定出了一套科学有效的实施流程和策略 , 还研发了基于中翰数据治理平台的数据清洗平台组件 , 显著提高了数据清洗改造的工作效能 。
(一)分析存量数据质量
对企业存量数据质量的分析包括数据一致性、完整性、合规性和冗余性等维度 。原则上应借助专业的数据分析工具 , 对企业的全部数据进行质量分析 。分析时应借用相关算法进行大数据行为分析 , 实现结果量化并进行可视化呈现(如图一) , 最终借助外部咨询专家总结问题、提出意见 , 完成《存量数据质量分析报告》的制作 , 从而有效指导数据清洗策略、规则等的制定 。
数据治理:如何实施数据清洗,提升数据质量?
文章图片

文章图片

企业存量数据质量的分析工作是否到位 , 很大程度上决定了数据清洗改造的成功与否 。
(二)制定清洗策略
企业在制定数据清洗策略时 , 要考虑两方面内容:
1.根据企业自身实际情况选择不同数据清洗模式 , 具体方法见图二:
数据治理:如何实施数据清洗,提升数据质量?
文章图片

文章图片

2.根据数据的不同类型选择有针对性的清洗方法 , 具体方法见图三:
数据治理:如何实施数据清洗,提升数据质量?
文章图片

文章图片

(三)制定清洗规则
数据清洗策略的制定属于宏观层面上工作方向的确定 , 落实到具体实施工作中 , 还需要确定一些工作细则 , 以支持实际清洗工作的顺畅有序进行 。
数据清洗规则包括清洗流程、清洗分工、清洗内容、方法手段等几个方面 , 需要具体情况具体分析 , 在此展示一些普适性工作流程(图四)和某家公司数据清洗的工作内容(图五)和分工(图六)作为示例:
数据治理:如何实施数据清洗,提升数据质量?
文章图片

文章图片

数据治理:如何实施数据清洗,提升数据质量?
文章图片