数据治理是将分散、无序、混乱的原始数据加工处理为相对集中、有序、有使用价值的标准数据的重要过程,是形成数据资产、实现数据价值的基础工作和关键步骤。数据治理包括数据清洗、数据脱敏脱密、数据标准化、数据交换和数据集成。
1.数据清洗
数据清洗是指对原始采集数据进行包括剔除重复数据、补充不完整数据、修正错误数据等处理,形成有规则、结构化的数据,提高可用性和分析价值。
2.数据脱敏脱密
一般应先对敏感数据进行识别,再通过脱敏算法,进行标准化建模和自动化处理,以实现安全、便捷、标准地脱敏,脱敏后的数据应不涉及国家安全、个人隐私等内容。
3.数据标准化
数据标准化包括数据标签、摘要、索引等,以形成可供后续数据分析和挖掘的标准数据,是提升数据资产价值的基础性工作。通过数据标准化可以提高跨系统数据在数据结构、数据维度等方面的一致程度,降低整合和集成难度,形成满足一致性、可靠性、兼容性等标准的高质量数据。
4.数据交换
数据交换是指将数据从原有模式按照一定标准转换为目标模式,转换过程中应准确并一致性地反映原数据,以实现不同系统和平台之间的数据对接、共享和交换。
5.数据集成
数据集成是指将异构、分布、自治数据进行集成和可视化处理,以解决不同数据源不匹配和访问效率低等问题。