返回首页

网站导航
资讯首页> 热点推荐 > 数据中心的数字化转型

    数据中心的数字化转型

    热点推荐2021年06月11日
    分享

      数据质量的重要性及管理

      一、数据质量的重要性
      
      如今,数据在社会中扮演着越来越重要和有用的角色。许多活动和流程对数据的依赖正在增加。因此,数据的质量越来越重要,应加以管理。
      
      质量差的数据会使组织面临风险。它可能导致错误的决策、不满意的客户、不满意的数据使用者、由于不遵从性而导致的罚款、隐藏成本(返工)、坏名声、不满意的员工和缺乏互操作性。
      
      二、概念及定义
      
      1.什么是数据质量
      
      质量是指物体的固有特性满足需求的程度。
      
      我们从这个定义中得出以下数据质量的定义:数据质量是数据维度满足需求的程度。
      
      注1:ISO9000定义中的术语“特征”被“维度”取代,因为这个术语在数据管理中更常见。
      
      注2:形容词固有的被省略了,因为外部维度也与数据管理有关,例如可用性。
      
      注2:数据有多种形式:数据概念。数据质量的每个维度都是根据这样的数据概念定义的。
      
      2.什么是数据概念
      
      数据概念定义为:
      
      数据概念是信息系统中结构化和组织数据的一种形式。
      
      数据概念的一些例子包括数据集、数据文件、记录、属性和数据值。
      
      3.什么是维度
      
      维度是数据概念的可测量特性。
      
      该定义来源于ISO9000的定义。该标准将维度定义为对象的特征。
      
      维度这个术语用于在测量物体(如长、宽、高)时与特征联系起来。维度的例子包括精确性、完整性和及时性。
      
      不应将本上下文中的术语维度与它在商业智能上下文中的使用混淆,在商业智能上下文中,它指的是汇总或查看数据的类别。
      
      4.维度和数据概念的组合
      
      维度和数据概念应该是一个逻辑组合。
      
      数据质量维度的定义由维度和数据概念的组合组成。在日常语言中,我们一般于只提到维度而不提到相关的数据概念。
      
      5.数据质量要求
      
      要求是一种需要或期望,通常是隐含的或强制性的(ISO9000)。
      
      在数据质量上下文中,可以通过与数据质量维度相关联的指标的目标值来确定需求。
      
      应该注意的是,数据质量维度的需求依赖于上下文,应该由其相关使用人员确定。也不能笼统地说在所有情况下质量都应该尽可能高,因为可能会产生不必要的成本。
      
      三、如何选择正确的数据质量维度
      
      选择数据质量的维度是控制或改善数据质量过程的第一步。这些步骤是:
      
      •确定数据质量的哪些维度对所考虑的数据是重要的。
      
      •确定一个维度是否对更高的目标有足够的贡献。
      
      •对选择的维度进行优先排序
      
      •为选定的维度建立指标和相关的测量方法
      
      下面详细说明这些步骤。
      
      1.确定数据质量的哪个维度对所考虑的数据是重要的
      
      确定数据的类别。数据类别包括主数据、引用数据、事务数据、基本存储和统计输出。
      
      确定哪些维度对数据类别是重要的。如何选择正确的数据质量维度(二)指出了哪些维度是特定数据类别的候选维度。
      
      2.确定一个维度是否对考虑中的更高维度有足够的贡献
      
      确定一个维度是否足以实现更高的目标,即某些业务目标。贡献必须足够大,使它值得选择维度。
      
      3.对各个方面进行优先排序
      
      将维度按优先级排序。把最优的成本效益比放在首位,从而控制成本。
      
      4.为选定的维度建立指标和相关的测量方法
      
      为选定的维度建立指标。建立每个指标的测量方法。
      
      这些维度可以在与数据管理相关的各种来源中找到。
      
      在编制数据质量各方面的定义时应用了下列原则:
      
      ▪属性尽可能完整。
      
      ▪尽可能多地使用已经存在的定义。
      
      ▪定义符合ISO704的要求。这个标准是关于对术语进行一般定义的。例如,定义不应该太长,也不应该包含示例。
      
      ▪定义总是以“……的程度”开头。
      
      ▪维度是事物的一部分。我们称之为数据概念(例如属性、记录或数据文件)。
      
      ▪数据概念一起形成一个数据概念系统。这些数据概念也被定义和可视化。
      
      ▪数据质量维度可根据数据概念进行分类。