数据质量的重要性及管理
一、数据质量的重要性
如今,数据在社会中扮演着越来越重要和有用的角色。许多活动和流程对数据的依赖正在增加。因此,数据的质量越来越重要,应加以管理。
质量差的数据会使组织面临风险。它可能导致错误的决策、不满意的客户、不满意的数据使用者、由于不遵从性而导致的罚款、隐藏成本(返工)、坏名声、不满意的员工和缺乏互操作性。
二、概念及定义
1.什么是数据质量
质量是指物体的固有特性满足需求的程度。
我们从这个定义中得出以下数据质量的定义:数据质量是数据维度满足需求的程度。
注1:ISO9000定义中的术语“特征”被“维度”取代,因为这个术语在数据管理中更常见。
注2:形容词固有的被省略了,因为外部维度也与数据管理有关,例如可用性。
注2:数据有多种形式:数据概念。数据质量的每个维度都是根据这样的数据概念定义的。
2.什么是数据概念
数据概念定义为:
数据概念是信息系统中结构化和组织数据的一种形式。
数据概念的一些例子包括数据集、数据文件、记录、属性和数据值。
3.什么是维度
维度是数据概念的可测量特性。
该定义来源于ISO9000的定义。该标准将维度定义为对象的特征。
维度这个术语用于在测量物体(如长、宽、高)时与特征联系起来。维度的例子包括精确性、完整性和及时性。
不应将本上下文中的术语维度与它在商业智能上下文中的使用混淆,在商业智能上下文中,它指的是汇总或查看数据的类别。
4.维度和数据概念的组合
维度和数据概念应该是一个逻辑组合。
数据质量维度的定义由维度和数据概念的组合组成。在日常语言中,我们一般于只提到维度而不提到相关的数据概念。
5.数据质量要求
要求是一种需要或期望,通常是隐含的或强制性的(ISO9000)。
在数据质量上下文中,可以通过与数据质量维度相关联的指标的目标值来确定需求。
应该注意的是,数据质量维度的需求依赖于上下文,应该由其相关使用人员确定。也不能笼统地说在所有情况下质量都应该尽可能高,因为可能会产生不必要的成本。
三、如何选择正确的数据质量维度
选择数据质量的维度是控制或改善数据质量过程的第一步。这些步骤是:
•确定数据质量的哪些维度对所考虑的数据是重要的。
•确定一个维度是否对更高的目标有足够的贡献。
•对选择的维度进行优先排序
•为选定的维度建立指标和相关的测量方法
下面详细说明这些步骤。
1.确定数据质量的哪个维度对所考虑的数据是重要的
确定数据的类别。数据类别包括主数据、引用数据、事务数据、基本存储和统计输出。
确定哪些维度对数据类别是重要的。如何选择正确的数据质量维度(二)指出了哪些维度是特定数据类别的候选维度。
2.确定一个维度是否对考虑中的更高维度有足够的贡献
确定一个维度是否足以实现更高的目标,即某些业务目标。贡献必须足够大,使它值得选择维度。
3.对各个方面进行优先排序
将维度按优先级排序。把最优的成本效益比放在首位,从而控制成本。
4.为选定的维度建立指标和相关的测量方法
为选定的维度建立指标。建立每个指标的测量方法。
这些维度可以在与数据管理相关的各种来源中找到。
在编制数据质量各方面的定义时应用了下列原则:
▪属性尽可能完整。
▪尽可能多地使用已经存在的定义。
▪定义符合ISO704的要求。这个标准是关于对术语进行一般定义的。例如,定义不应该太长,也不应该包含示例。
▪定义总是以“……的程度”开头。
▪维度是事物的一部分。我们称之为数据概念(例如属性、记录或数据文件)。
▪数据概念一起形成一个数据概念系统。这些数据概念也被定义和可视化。
▪数据质量维度可根据数据概念进行分类。