第一部分介绍DataCleaner
数据质量(DQ)是一个业务术语概念和覆盖的质量数据用于特定目的。通常DQ术语应用于数据用于商业决策的质量,但也可能指的是数据用于研究、质量活动,流程等等。
处理数据质量通常由项目变化很大,正如数据变化很多的质量问题。数据质量问题的例子包括:
- 数据的完整性
- 数据的正确性
- 重复的数据
- Uniformedness /标准化的数据
少技术定义高质量的数据,数据是高质量的“如果他们适合他们的预期使用操作、决策和计划”(j·m·朱兰)。
数据质量分析(DQA中)图(人类)过程质量检查的数据为一个特定的过程或组织。DQA中既包括技术和非技术图元素。例如,做好DQA中你可能需要跟图用户,业务人员,合作伙伴或者客户。这是需要驴DQA中应该图的目的是什么。
从技术观点的主要任务DQA中数据分析活动图,这将帮助你发现和测量数据事务的当前状态。
数据分析是调查的活动数据存储创建的概要文件。概要文件的数据存储你将能更好地使用和改进它。
方法分析往往取决于你是否已经有一些想法的质量数据或如果你没有经历过与手头的数据存储。不管怎样我们推荐一个 探险的的方法,因为即使你认为只有一定数量的问题你需要寻找,这是我们的经验(原因很多DataCleaner)的特点,这是同样重要的是要检查这些物品的数据你认为是正确的!通常是便宜的包括更多的数据到你的分析结果可能会让你大吃一惊,节省您的时间!
DataCleaner(在其他方面)由一个桌面应用程序进行数据分析在几乎任何类型的数据存储。
数据存储是数据存储的地方。通常企业数据在关系数据库中生活,但也有很多例外规则。
理解不同来源的数据,如数据库、电子表格、XML文件,甚至标准的业务应用程序中,我们使用这个术语 数据存储。DataCleaner能够从非常广泛的数据存储检索数据。此外,DataCleaner可以更新这些数据存储的数据。
可以创建一个数据存储在UI中或通过配置文件。您可以创建一个数据存储任何类型的来源,例如:CSV,Excel,Oracle数据库,MySQL,等等。
数据分析我们认为是最理想的一种探究的活动。数据监控通常不是!时你的测量分析通常需要不断地检查,这样你的改进实施。这是数据监测通常是什么。
数据监控解决方案有不同的形状和大小。你可以设置自己的大部分计划工作,每天晚上运行。你周围可以构建警报发送你电子邮件,如果一个特定的测量超出其允许的阈值,或者在某些情况下,你可以尝试完全排除这个问题通过应用First-Time-Right(功能处理量)原则,在入口时间验证数据。如。在数据登记表格等等。
版本3,DataCleaner现在还包括监视web应用程序中,被称为“DataCleaner监控”。监视器是一个服务器应用程序,支持组织和调度工作,以及暴露指标通过web服务和互动的时间和报告。它还支持通过向导配置并得过程和管理页面的所有组件的解决方案。因此,我们喜欢说DataCleaner监控所需的基础设施提供了一个良好的基础在一个主数据管理中心。
主数据管理(MDM)是一个非常广泛的术语,是物化以多种方式。本文档的范围符合上下文的数据质量超过一个活动,我们实际上目标DataCleaner本身。
MDM的总体目标是管理一个组织的重要数据。我们通过“主数据”指“事实的唯一版本”,即。不是一个特定的数据系统,但例如所有客户数据和产品数据的公司。通常这些数据分散在多个数据存储,所以MDM是统一的过程的一个重要组成部分的数据到一个单独的模型。
明显的另一个非常重要的问题来处理在MDM数据的质量。如果你简单地收集。“所有客户数据”从所有系统在一个组织中,你很可能会看到大量的数据质量问题。会有很多重复的条目,会有差异,客户数据,会有不同的标识符,甚至不同的粒度级别定义“客户是什么?”。在MDM的上下文中,DataCleaner可以作为发动机清洗,从多个数据存储和统一数据转换成单一的主数据视图。
这些是DataCleaner的系统需求:
- 计算机(图形化显示,如果在命令行模式下运行除外)。
- 一个Java运行时环境(JRE),version 7或更高。
- 专业版DataCleaner软件许可文件。如果你要求一个免费试用或购买DataCleaner在线,这个文件将被发送到您的电子邮件地址。
使用安装程序开始安装过程。安装程序是一个可执行的JAR文件,可执行文件在大多数系统如果你简单地双击它。
提示
如果安装程序没有启动,当你双击它,打开一个命令提示符并输入:
java jar DataCleaner -install.jar(版本)——(版)
故障排除
通常安装过程简单且不言自明。但如果没有按预期工作,请检查以下几点:
在Windows系统上,如果你没有 管理权限的机器上,我��鼓励你DataCleaner安装在用户的目录,而不是在“程序文件”。
-
一些Windows系统你可以得到一个警告的 没有脚本引擎文件扩展名. js””。发生这种现象的原因。js文件(JavaScript)文件与一个编辑器,而不是Windows的内置脚本引擎。为了解决这个问题,请参考这些帮助链接:
answers.microsoft.com解决这个问题和建议……
winhelponline.com,解决这个问题
-
如果你有问题定位或选择软件许可文件,您可以跳过步骤安装程序许可文件手动复制到这个文件夹:~ /。datacleaner”(~是你的用户的主文件夹)。注意,在Windows机器上禁止通过Windows资源管理器来创建目录开始点(.),但它可以通过使用命令提示符:
mkdir .datacleaner
下面是截图的初始屏幕时,将启动DataCleaner(桌面community edition)。可以添加一个新的数据存储在“从头开始新工作”或“管理数据存储”屏幕可以通过单击按钮在屏幕的底部。
文件数据存储可以添加使用降落区(或浏览按钮)位于屏幕顶部。下面,有按钮,使添加数据库或云服务。
如果文件添加使用降落区,其格式将推断。如果你需要更多的控制文件的解释,用另一种方法来添加一个新的数据存储——“管理数据存储”按钮在欢迎屏幕。
“数据存储管理”屏幕——除了查看和编辑现有的数据存储——一个选项来添加一个新的基于其类型。选择一个图标在屏幕底部的适合您的数据存储类型。
一旦你注册(“创建”)自己的数据存储,你可以从列表中选择它,(在屏幕“从头开始新工作”)或从列表中选择它,然后单击“构建”(在“数据存储管理”屏幕)开始使用它!
提示
你还可以配置数据存储的配置文件(conf.xml),有一些优点和一些缺点。更多信息,阅读配置文件章 .
有几个不同的组件,您可以添加到您的工作:
分析程序,这是最重要的组件。实际上,至少没有一个分析器的工作不会运行(如果你没有添加一个执行工作,DataCleaner将建议添加一个基本将输出保存到文件)。一个分析器是一个组件,检查所接收到的数据并生成一个结果或报告。大多数的数据剖析碎片创建分析器。
-
变形金刚组件用于在分析之前修改数据。有时必要提取部分的价值或结合两个值正确了解关于一个特定的测量。在其他情况下,变压器可用于执行参考数据查找或其他类似的任务,并将一个操作的结果中数据流的工作。
变压器的结果是一组输出列。这些列工作就像普通列在你的工作,除非他们有一个流之前的前一步成为物化。
过滤器组件,将流的处理工作。过滤器将有多种可能的结果,根据一个过滤器的结果,一个特定的行可能处理不同的基奔流。过滤器是常用的简单地忽略某些行分析,如。null值或值范围之外的兴趣。
这些组件将工作图中的一个节点。双击一个组件(图节点)将其配置对话框。
变形金刚和过滤器添加到你的工作使用“变换”和“改善”菜单。左边的菜单组件库中可用或通过右键单击一个空的空间在画布上。请参考参考章节转换更多信息在特定的变形金刚和过滤器。
分析程序使用“分析”菜单添加到你的工作(在大多数情况下),但也“写”菜单将输出保存到一个数据存储的分析程序。请参考参考章节分析程序更多信息在特定的分析器。
简单地添加一个变压器或过滤器实际上不会改变你的工作!这是因为这些组件只如果你它们连接在一起,产生影响。
连接一个过滤器,您需要设置一个依赖的结果。所有组件都有一个按钮用于选择过滤结果的右上的角落配置对话框。点击此按钮选择取决于过滤的结果。
如果你有多个过滤器链这些仅仅通过依赖结果个人的过滤器。这将需要 所有过滤需求链中,一个记录传递给组件(逻辑)。
使用“链接……”,也可以几个过滤器连接到一个组件在一个钻石形状。在这种情况下,如果 任何过滤器的需求得到满足,记录将被传递给组件(或逻辑)。
”链接……”选项组件连接在一起的“主流”。然而,一些组件可以产生额外的输出数据流。例如,完整性分析器的主要特征是产生的摘要记录完整性在窗口工作的结果。此外,它会产生两个输出数据流——“完全记录”和“不完整的记录”。输出数据流的行为类似于源表,虽然这种表是动态创建的组件。这使得进一步处理的输出。
组件生产输出数据流有额外的“链接…右键菜单中的“位置与后续组件线输出。
相反,连接组件的链接…”菜单选项,双击一个组件会出现一个配置对话框,可以选择其输入列。在对话框的右上角,组件可以选择的范围。切换范围提供给我们机会去选择输入列的“主要流”(默认范围)或从输出数据流。
一个例子的工作使用输出的数据流:
提示
画布上显示信息(在屏幕底部的)包含指令的下一步需要执行其他构建一个有效的工作。
当工作是建立您可以执行它。检查你的工作是否正确配置并准备执行,检查状态栏底部的工作窗口。
执行工作,只需点击“执行”按钮,在右上角的窗口。这将弹出结果窗口,其中包含:
的 进展信息选项卡包含有用的信息和进展迹象工作时执行。
额外的标签为每个组件类型,生成一个结果/报告��例如“值分布”如果这样一个组件添加到工作。
分析结果窗口的一个例子:
您可以保存您的工作为了以后重用它们。保存一份工作很简单:只需点击“保存”按钮在顶部面板的窗口。
分析工作与“.analysis保存在文件。xml”扩展。这些文件是可读和可编辑XML文件使用任何XML编辑器。
开放的工作可以通过使用“开放”菜单项。打开一个工作将恢复工作大楼窗户你可以编辑和运行工作。
DataCleaner包含多个数据存储功能,您可以重用工作或多个列相同的数据存储。我们称之为特征模板的工作。
当打开一个工作就会为您提供一个文件选择器。当你选择一个工作文件将显示一个面板,其中包含一些与工作有关的信息以及可用的行动:
如果单击“打开模板”按钮,您将看到一个对话框,你可以工作的原始列映射到一组新的列:
首先,您需要指定要使用的数据存储。在左边你会看到原始数据存储的名称,但工作并不局限于只使用这个数据存储。从列表中选择一个数据存储和下面的字段的列将会变得活跃。
然后你需要单个列映射。如果你有两个相同的数据存储,列名,您可以单击“自动地图”按钮,就会自动分配。否则你需要地图新数据存储的可用列的列。
最后你的工作可能包含“工作水平变量”。这些工作的可配置特性可能还需要填写。
一旦这些2 - 3步骤已经完成,点击“开放工作”按钮,和DataCleaner将准备一套新的列上执行工作!
虽然DataCleaner是分析的重点,往往在这样的分析你就会发现自己实际上提高数据通过应用变压器和过滤器。在这种情况下,显然你要导出改进/清洗数据,这样你就可以利用它在其他情况下比分析。
请参考参考章节作家有关写作洁净的更多信息数据。
除了(在某些情况下,甚至作为替代)DataCleaner的桌面版,我们也提供一个web应用程序监控、调度和共享分析工作和结果。
一个Java servlet容器和web服务器必须运行监视web应用程序。这方面的一个例子Apache Tomcat 7.倍由DataCleaner,常常被用来测试和开发团队。
安装监视web应用程序中,下载Web Archive(war)DataCleaner的分布。安装。war文件在你的容器。如果你使用Apache Tomcat,这是通过复制。war文件在tomcat“webapps文件夹目录。之后,启动容器和去http://localhost:8080 / DataCleaner-monitor看到欢迎/登录屏幕:
DataCleaner community edition中,您会发现建议登录凭证直接在屏幕上,让你迅速开始。
DataCleaner显示器显示和管理数据存储通过“数据存储”页面。点击“注册数据存储”按钮设置一个新的数据存储:
按照屏幕上的指令通过注册数据存储的过程。向导完成后你可以找到数据存储在“数据存储”页面上,您可以以不同的方式使用它,例如做特别的查询、下载数据(如果这是一个基于文件的数据存储),发射DataCleaner桌面构建定制的工作等。
提示
你还可以配置数据存储的配置文件(conf.xml),有一些优点和一些缺点。更多信息,阅读配置文件章 .
有多种方法来添加一个新的DataCleaner监测工作。最简单的方法是使用一个工作的向导。这些发现在“调度”页面,使用“构建工作”按钮。
只是按照屏幕上的指令根据向导构建工作的意图。
工作已建成后,您将可以选择触发执行,进度,设置报警并开始构建监测时间的结果的指标。
或者,您可以创建使用桌面应用程序的工作。在这种情况下,确保 桌面应用程序中的任何涉及数据存储名称匹配的名称数据存储在存储库中!如果是这样,您可以安全地删除.analysis。xml文件的工作 工作存储库文件夹。它将立即在监视的web UI应用程序。
DataCleaner监视web应用程序的首选应用程序调度DataCleaner工作。
下面是一个DataCleaner监控调度页面的截图。要访问这个页面,用户需要ROLE_SCHEDULE_EDITOR安全角色。
注意到这个页面上的东西:
每个工作都是分类的数据存储。这是提供一个概述的工作是执行基于数据存储。从技术上讲,一份工作可以与多个数据存储交互,但是它将在这个页面分类基于源的数据存储是作为工作的执行流程。
-
除了数据存储和工作名称,我们有一个 调度列。所示,所有的工作都是手动触发的,也就是说,他们不是由DataCleaner监测计划。点击链接改变触发:
屏幕上的三种类型的触发解释:周期性的触发,触发的依赖,手动触发。
-
在下一篇专栏文章中 警报定义。警报定义的条件后应检查执行。警报是基于度量,类似,可以显示在仪表板页面上的时间。警报还包含一个严重性,定义警报的严重程度,如果是提高。严重程度量表(增加严重程度): 情报、监视、警告、致命的 .
典型的处理提出警报包括发送电子邮件或短信数据管家。这些警报通知机制包含在DataCleaner的商业版本。你也可以开发自己的警报通知处理程序,通过实现 org.datacleaner.monitor.alertnotification.AlertNotifier在Java接口。
-
在最后一列, 行动可以找到。有以下选项:
触发触发一个立即执行的工作。
开放,发射DataCleaner桌面应用程序工作负载。注意,安全与带宽问题,只有第一个20输入记录的工作转移到桌面应用程序。换句话说是不可能“触发”工作运行在桌面,好像是在服务器上运行,但它提供了一个良好的操场上进行实验和测试。乔布斯甚至可以修改并保存回监控服务器。
历史,它显示一个对话框,其中有关于每个触发作业执行的日志信息。
在“仪表板”页面您可以设置指标的可视化表示,你的工作是收集。DataCleaner监视器有一些实例时间表图表演示如何绘制指标,你可以点击点在这些图表和时间表看到更多细节关于这些指标。
现在让我们看看我们如何定义我们自己的时间表。选择适当的组页面的左边,然后单击“新时间线图表”。你要选择的工作基础指标的度量数据,然后选择可用的工作:
注意对话的内容是高度依赖于所选择的工作,所以上面的截图中不一定会像可以是你的选择。
有四种不同类型的指标DataCleaner监视器,他们可能是也可能不是通过你的工作:
Non-parameterized指标。这些是最“纯”指标,将只有一个复选框表示。
String-parameterized指标。这些度量字符串参数。比如我们看到的“匹配”指标”模式查找器”组件接受一个字符串参数(截图)。在这种情况下,参数表示寻找当计数模式匹配。通常建议将显示在UI来帮助你找出什么类型的参数。
-
Column-parameterized指标。收集一些指标每列。因为我们知道特定的组件正在哪些列,列的列表和相应的复选框所示简化参数选择:
-
公式度量。最后,您可以定义您自己的其他指标度量基于一个公式。这个功能类似于电子表格,只需建立公式引用其他指标,并提供一个方程计算指标。
添加一个公式指标是通过单击“添加度量公式”按钮,填写详细的公式:
度量公式支持基本数学运算符:+(+)、减(-)、除(/)、乘(*)。
指标选择完成后,一个新的未保存的时间轴显示:
你可以回到选择标准或自定义图表的外观和感觉通过单击“扳手”图标,或者你可以使用save图标开始储蓄。
名称和指标在时间轴图的颜色可以定制点击图表的传说。