数据录入过程
质量数据是指由个体产品质量特性值组成的样本(总体)的质量数据集,在统计上称为变量;个体产品质量特性值称变量值。 根据质量数据的特点,可以将其分为计量值数据和计数值数据。
1.计量值数据
计量值数据是可以连续取值的数据,属于连续型变量。其特点是在任意两个数值之间都可以取精度较高一级的数值。它通常由测量得到,如重量、强度、几何尺寸、标高、位移等。此外,一些属于定性的质量特性,可由专家主观评分、划分等级而使之数量化,得到的数据也属于计量值数据。
2.计数值数据
计数值数据是只能按0,1,2,……数列取值计数的数据,属于离散型变量。它一般由计数得到。计数值数据又可分为计件值数据和计点值数据。
(1)计件值数据,表示具有某一质量标准的产品个数。如总体中合格品数、一级品数。
(2)计点值数据,表示个体(单件产品、单位长度、单位面积、单位体积等)上的缺陷数、质量问题点数等。如检验钢结构构件涂料涂装质量时,构件表面的焊渣、焊疤、油污、毛刺数量等。
数据一致性
很多用户甚至一些数据仓库项目的开发人员经常将数据质量和数据仓库项目开发中的ETL过程的数据一致性混为一谈,错误的认为数据仓库项目(也即ETL过程)能够修复数据以提高数据质量,其实数据质量和ETL过程的数据一致性是两个不同的概念。ETL过程的数据一致性是指根据相同的业务理解(基于源系统模型和基于数据仓库模型),在源系统查询和统计的信息与在数据仓库中得到的结果在各个细节层次(包括明细层次)上都是相同的。数据一致性是ETL过程必须保证的。质量是数据存在于企业的源系统中的,如常见的客户代码的不规范,同一个客户在不同的系统中(例如业务处理系统和财务系统)有不同的代码,甚至同一个客户在同一个系统中也有不同的代码,以保险公司的业务处理系统为例,同一个客户先后在同一个保险公司投保,不同的业务员可能会输入不同的客户代码;更常见的是那些没有实现大集中的分布式的应用,同一个客户(如工商银行)在不同的分公司(如河南分公司和湖北分公司)投保,业务员很可能会输入不同的代码;再如,在业务处理系统中,有些录入人员为了录入的方便,常常将一些内容不输或者采用默认值,造成一些重要录入信息的缺失或错误。这些数据质量问题对数据分析系统造成严重的干扰和破坏。数据仓库项目虽然不能够修复数据以提高数据质量,但能发现存在的部分问题从而提醒用户哪些数据是有质量问题的,给出用户一些改进的建议,同时在分析和决策时应降低对这些数据的依赖程度,也可以提供辅助的方法跟踪、监测数据质量问题。