数据质量管理对于处理低质量数据带来的问题是必要的。数据质量管理可以停止处理不准确数据浪费的时间和精力。低质量的数据可能会隐藏运营中的问题,并使合规性成为挑战。好的数据质量管理对于理解数据至关重要。它有助于为组织建立框架并支持数据质量规则。
准确、最新的数据提供了组织日常运营的清晰视图。质量差会导致失误,包括不必要的开支和发票丢失。准确的数据可提高对应用结果的信心并减少不必要的成本。良好的数据质量管理将建立有用信息的基础,有助于了解组织的费用和流程。质量差的数据在开始时记录不正确,在使用或存储过程中失真,或者已经过时。数据质量差的其他示例包括:
-
资料不全
-
数据不一致
-
重复数据
-
定义不明确的数据
-
组织不良的数据
-
较差的数据安全
一 什么是数据质量管理
数据质量管理可以描述为一组用于维护和访问准确信息的实践。处理数据的每个步骤都必须包括支持准确性的努力。它从获取数据、存储数据、分发数据和分析数据开始,目标是接收高质量、无差错的信息。
企业越来越多地使用数据来促进对营销问题、产品开发和沟通策略的智能决策。高质量数据通常可以比低质量数据更快地处理和分析。高质量的数据带来更快更好的洞察力,并支持商业智能收集和分析。
二 什么是数据质量工具
一个好的数据质量管理系统会使用有助于提高组织数据可信度的工具。数据质量工具是用于识别、理解和纠正数据缺陷的流程和技术,支持跨运营业务流程和决策制定的有效数据治理。数据质量工具包括一系列功能,例如:
-
数据清理:用于更正未知数据类型(重新格式化)、消除重复记录并改进不合标准的数据表示。数据清理确保遵循数据标准化规则,以便从数据集中进行分析和洞察。数据清理过程还建立层次结构并使数据可定制以满足组织独特的数据要求。
-
数据监控:监控并确保组织的数据质量在组织内得到开发、使用和维护的过程。该工具通常使用自动化来监控数据质量。通常,组织会制定自己的关键绩效指标 (KPI) 和数据质量指标。数据监控流程用于测量这些指标并根据配置的数据质量基线对其进行评估。大多数数据质量监控系统旨在在未达到质量阈值时提醒数据管理员。
-
数据剖析:数据剖析过程可用于建立趋势,并帮助发现数据中的不一致之处。这个过程结合了数据的监控和清理。数据剖析是用来:
-
创建数据关系
-
根据描述验证可用数据
-
将可用数据与标准统计基线进行比较
-
数据解析:此工具用于发现数据是否符合可识别的模式。数据解析基于模式的模式支持自动识别,例如电话号码的区号或人名的各个部分。
-
数据匹配:减少数据重复,提高数据准确性。它分析来自单一数据源的所有记录中的重复数据,识别完全匹配和近似匹配。该过程允许手动删除重复数据。
-
数据标准化:将来自各种来源和不同格式的数据转换为统一和一致的格式。它修复诸如大写不一致、首字母缩略词、标点符号和位于错误字段中的值等问题。数据标准化有助于确保存储的数据使用相同、一致的格式。
-
数据丰富:补充缺失或不完整数据的过程。
数据丰富是通过组合来自另一个来源的数据来完成的。这通常在数据迁移期间完成,此时客户信息变得支离破碎。从一个系统获取的数据用于补充来自另一个系统的数据。
三 什么是数据质量指标
数据质量指标对于衡量和评估组织数据的质量已经变得非常重要。使用数据质量指标需要了解数据、数据的处理方式以及衡量数据质量的方法。在许多情况下,使用测量数据维度,但也列出了其他方法。不同类型的数据质量指标是:
-
数据准确性:衡量数据的准确性。
-
数据与错误的比率:记录数据集中的已知错误,并将它们与数据集的大小进行比较。
-
数据完整性:当数据满足组织的期望时,数据就是完整的。它表明何时有足够的时间得出有意义的结论。
-
空值数:这是对数据集中存在空字段的次数的度量。这些空白字段通常表示信息被放置在错误的字段中,或者完全缺失。
-
数据一致性:要求从多个来源获取的数据值不相互冲突。需要注意的是数据一致性并不一定意味着数据是正确的。
-
数据价值实现时间:衡量从数据中获得有用见解所需的时间。
-
数据完整性:指测试数据以确保其符合组织的数据程序。数据的完整性显示没有意外错误,并使用适当的数据类型。
-
数据转换错误率:衡量数据转换操作失败的频率。
-
及时性:在用户需要时跟踪数据何时未为用户准备好。
-
数据存储成本:当数据被存储而不被使用时,数据可以被认为是质量数据。如果数据存储成本下降,而数据操作保持不变,或增长,则表明数据质量可能正在提高。
四 什么是数据质量控制
数据质量控制是关于控制数据的使用方式。该过程通常在数据质量保证(数据不一致的发现及其更正)的“之前和之后”执行。
在数据质量保证过程之前,对输入进行限制和筛选。在质量保证过程之后,从以下方面收集统计数据以影响质量控制过程:
-
准确性
-
完整性
-
一致性
-
精确性
-
失踪/未知
信息取自质量保证流程,数据质量控制流程使用这些信息来决定使用什么。例如,如果质量控制过程发现太多错误,它将阻止数据的使用,而不是允许中断发生。
五 什么是数据质量维度
数据质量维度支持衡量组织使用的数据质量的方法。使用多个维度可以显示组织的数据质量水平。从多个维度获取的聚合分数提供了数据质量的合理表示,并表明数据的适用性。
数据质量维度衡量特定于项目需求的维度。
数据可以定义可接受的水平,进而建立对数据的更多信任。常用的数据质量有六个维度:
-
数据完整性:此维度可用于涵盖各种情况。例如,客户数据可能显示有效客户交互所需的最少信息量。另一个例子是缺少交货估计的订单,这不符合完整条件。完整性衡量显示的数据是否足以支持令人满意的交互或交易。
-
数据准确性:当数据呈现现实世界(或部分现实世界)和期望的现实模型时,数据可以被认为是准确的。数据越接近“真实”,数据的准确性就越高。准确的电话号码意味着可以联系到此人。准确性对于金融和医疗保健等监管更为严格的行业尤为重要。衡量数据准确性需要使用真实来源(例如州出生记录)或通过联系相关个人或组织来验证数据。
-
数据一致性:该维度关注存储在多个实例中的相同信息是否一致。它显示为存储在不同位置的具有匹配信息的数据的百分比。数据一致性确保分析正确捕获和利用数据的价值。
数据一致性可能难以评估,因为它需要跨多个数据存储位置进行有计划的研究。
-
数据有效性:该测量系统确定显示的值是否满足某些信息要求。例如,如果邮政编码包含该地区的正确数字,则它是有效的。使用商业规则提供了一种评估数据有效性的方法。
-
数据唯一性:用于判断存储中是否存在单条记录,或者同一信息是否存在多个版本。多个副本可能会导致问题,因为某些副本可能没有收到更新,或者可能只是错误的。唯一性确保避免重复。
-
数据完整性:随着数据在不同系统之间传输并进行转换,它可能会失真。完整性表示信息和核心属性得到了维护。它确保数据可以追溯到其原始来源。
六 数据质量管理角色和职责
数据质量管理过程是一个多方面的过程,涉及具有不同职责的各种专业人员。以下是数据质量管理工作组中最重要的一些角色:
1 数据质量经理
数据质量经理负责监督与数据质量相关的项目,并评估需要改进的地方。数据质量经理的职责包括:
-
与客户合作,确定和定义数据质量管理项目的要求。
-
分析需要管理的数据以确定它与这些要求的符合程度。
-
创建指标来衡量特定项目目标的进展情况。
-
实施可提高数据质量的新政策或流程。
-
随着时间的推移根据指标监控进度。
2 首席数据官 (CDO)
首席数据官 CDO 是C级主管,负责组织的数据资产。作为他们的核心职责,CDO 确保其公司的数据资产符合战略目标。随着越来越多的组织开始依赖数据驱动的决策制定,CDO 的角色近年来从战略数据管理演变为业务流程管理。
CDO 的职责因组织而异,但通常包括以下内容:
-
建立与数据质量管理相关的组织目标。
-
制定组织数据资产的使用和控制政策。
-
监督这些政策的实施并建立衡量合规性的机制。
-
优先考虑数据质量项目。
-
跨组织部门整合数据质量。
-
对员工进行最佳实践培训。
-
在内部和外部倡导改进组织数据实践。
-
监督数据质量管理流程,以确保公司收集和使用的数据满足业务要求。
-
制定有关如何使用数据实现业务目标的策略。
3 数据管理员
数据管理员是一名专业人员,负责根据组织的数据治理策略制定有关数据使用和安全性的政策。此外,数据管理员可能负责分配资源以维护和更新数据库,确保遵循政策,并监控和报告数据质量。
数据管理员的职责可能因项目而异,具体取决于他们的角色范围和他们在组织中的角色。
作为数据守门人,数据管理员在规划项目、审查报告、参与开发会议、设计新流程以及在必要时倡导变更方面发挥积极的领导作用。
数据管理员与跨不同职能部门的团队合作,就如何在整个企业中最好地使用和管理数据相关信息建立共同点;这项工作通常需要就具有不同需求或优先事项的利益攸关方之间的跨职能差异进行谈判。
4 数据分析师
数据分析师是收集、分析和解释原始数据以发现模式的数据专业人员。数据分析师可以在许多行业找到,包括零售、金融、*和医疗保健。
他们的职责因行业而异,但通常包括:
-
从各种来源收集数据。
-
分析收集的数据。
-
设计和维护数据系统和数据库。
-
根据他们的发现做出预测。
-
与跨部门的同事进行清晰的沟通。
-
与程序员、工程师和组织高管合作,以增强流程、修改系统和构建数据治理策略。
数据分析师必须具备出色的组织能力才能跟踪大量信息。他们还必须与跨部门的人员进行有效沟通,例如不直接参与分析过程的 IT 人员或业务开发专业人员。
数据分析师与负责根据历史趋势创建预测模型并预测未来会发生什么的数据科学家密切合作。这两个职位需要相似的技能组合,尽管一个可能更专注于统计分析,而另一个更专注于预测建模。
5 数据保管人
数据保管人是负责整个或部分企业的存储和安全基础设施的数据专业人员。数据保管人监督数据集的存储、聚合和使用。除了代表组织内的其他用户或部门存储、管理和保护数据外,数据保管人通常还负责确保根据组织的数据治理策略满足组织对隐私法规的要求。
他们的职责可能包括管理与信息访问、修改和删除相关的风险,以及确定管理员应如何保留长数据。个人可能还需要执行与系统用户管理、配置管理、系统开发生命周期管理、容量规划、灾难恢复规划、备份程序和媒体管理相关的任务。
6 数据建模师
数据建模师是系统分析师,他们与数据架构师和数据库管理员一起创建定义数据架构不同方面的数据模型。他们通过决定将哪些数据存储在数据库中以及如何构建数据来为公司的数据构建组织结构。
数据建模师的职责包括:
-
创建定义数据架构不同方面的模型。
-
通过决定将哪些数据存储在数据库中以及如何构建它们来为公司数据构建组织结构。
-
决定数据如何在系统之间移动,以便人们或程序可以对其进行分析或访问。
-
确保所有应用程序和系统的数据质量达到适当水平。
-
制定管理变更和建模新需求的指南。
7 大数据工程师
大数据工程师是使用大数据技术分析大型数据集的 IT 专业人员。大数据工程师设计、构建、分析、测试、维护、监控和管理复杂的公司数据基础设施系统。
大数据工程师的工作包括管理关系数据库、列式数据库、分布式文件系统、缓存算法、信息检索方法和其他相关技术。
8 数据架构师
数据架构师负责设计公司的数据架构。这包括收集业务利益相关者的需求、分析当前数据结构以确定需要做什么以及为未来构建架构。
数据架构师是战略思想家,他们了解技术领域的任何变化将如何影响公司的数据环境。他们负责开发数据架构的所有技术方面,并确保它们与其他组织计划保持一致。他们还管理与 IT 合作伙伴和供应商的关系,并且必须具备出色的沟通技巧。
七 数据质量管理的阶段
在明确了数据质量的定义和用于评估数据质量的属性之后,我们可以进入数据质量管理的实际过程。
1 定义数据质量规则
对于大多数公司而言,每个数据属性的 100% 分数根本不常见。这样做的原因是要达到这样的合规水平非常耗费成本和时间,因此公司通常会识别最重要的属性并相应地调整其数据质量管理程序。
那么如何设置数据质量规则呢?
首先,选择某条数据进行规则设置。让我们以客户的全名为例。如果它是最重要的信息,希望它尽可能准确。因此,可以为客户的全名设置 90% 的质量阈值。一旦决定了要评估的数据,就可以选择要衡量的属性——让我们来看看准确性和一致性。这意味着客户全名的准确性和一致性属性都应达到 90% 的质量阈值。
完成后,将需要设置某些有助于评估数据的规则。如果是全名,它们可能如下所示:
-
全名应在两个单词之间包含一个空格
-
全名中的两个词都应以大写字母开头
-
全名不应包含任何数字
应该为评估的每条数据设置规则,质量阈值也是如此。
2 按照设定的规则评估数据的质量
一旦设置了规则和阈值,就可以评估数据并查看它是否符合建立的质量标准。
回到客户全名的示例,我们将借助上述三个规则来衡量此数据的准确性。一旦我们测量了数据,可能会发现 95% 的全名在两个单词之间包含空格,70% 的数据以大写字母开头,而 80% 的数据仅包含字母。因此,如果我们计算平均值,则为 81.6%,低于 90% 的设定阈值。这意味着,数据不够准确。请记住,需要对每个选定的数据重复该过程。
3 数据修复
完成数据评估过程后,可能会发现数据需要修复或清理。以下是必须采取的最常见步骤:
-
分析根本原因:识别错误数据的来源并隔离或修复它。
-
数据解析:意味着数据标准化并检查它是否符合标准。
-
匹配:检测数据重复并将它们合并为一个或删除不需要的数据。
-
数据增强:加入其他来源的数据,使其更加准确有效。
-
监控:保持数据符合标准和要求的过程。