资料品质的维护
基本上,我们认为维护资料品质,有以下的步骤:
1、资料现况描述(Data Profiling)
(1)了解资料需求以及取得方式:此部分在了解所需资料原有的商业需求为何,并成立项目组织以进行了解资料的位置、格式、规格栏位等,以及存取资料的方式。
(2)分析信息的环境:这里是要确定所分析的资料与原订的商业目标相关,并针对资料的来源以及其中可能的转换进行调查,并确定提供资料以及使用资料的单位及人员,最后建立资料撷取以及后续评估资料品质的计划。
(3)评估资料品质与影响层面:此部分包含具体评估资料每个栏位的分布状况以及资料品质,包含:重复性、正确性、一致性与同步的频率、实时性与可用程度、易用性以及可维护性、在整体数据库的涵盖幅度、损坏程度、与商业行为的互动程度。
另外并在评估资料引进后,对初期/新增的储存空间的估算,以及对硬件/网络的负载冲击,甚至对现有资料产出流程的影响等,以评估是否要投入资源进行改善或扩充。
2、资料稽核(Data Auditing)
(1)找出根因:针对不符合原来资料规则的资料,须调查其原因,是否为原有规则已经过期,或是前端的应用系统对资料的把关不严。
(2)发展改善计划:针对已经找到的问题,研拟改善计划,如更新原有的资料规则,或是修改前端应用系统,针对来源资料的质量做更严格的管制。
3、资料清理(Data Cleansing)
解决问题:这是实际清理目前现有资料中的问题的步骤。根据前述步骤所找出的问题和解决方案,实际以资料转置(ETL)程序,将资料清理的步骤实做出来,清理出不合规则的资料,交由资料的拥有者(Owner)决定如何更正资料,或透过先期的协调结果,更正错误的资料。
4、资料品质持续监控(Data Quality Monitoring)
设计控制机制:在实做了一轮的资料品质项目后,后续的工作就是持续监控资料品质是否有偏移出原有规则的设定,这需要有特定功能的工具,可以针对欲监控的资料,设定监控规则,针对资料的健康状况,定期做出报告。 2100433B