数据仓库的概念、技术及应用

时间:2024-03-06 17:50:03

对许多企业而言,数据仓库是经常听到的术语。那么,数据仓库与传统的数据库是什么关系?什么样的企业适合引入数据仓库?如何建立数据仓库?为了理清这些概念,我们特意开辟“数据仓库系列讲座”,将全面介绍数据仓库构成、应用等方面的基本知识。

从“库”到“仓库”

数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
  
“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。
  
“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。
  “不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。
  
数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。

数据仓库的体系结构

数据仓库的体系结构分为数据获取层、数据存储层、数据挖掘层等多个部分(如图所示)。

 

  

图:数据仓库的体系结构

数据获取层
  
数据获取层把决策主题所需要的数据(当前的、历史的),从各种相关的业务数据库或数据文件等外部数据源中抽取出来,进行各种必要的清洗、整合和转换处理,再将这些数据集成存储到仓库中。数据获取层在数据仓库的整体系统应用中占有非常重要的地位。

数据存储层
  
数据存储层以一定的组织结构存储各种主题数据。数据仓库包括多个主题,一个主题的数据通常存储在一个数据库中,包括该主题的一些综合性表,如主题中选择的事实表、维表,还有为数据挖掘生成的中间表等。

数据挖掘层
  
数据挖掘层集成各种数据挖掘的算法,包含具有很强功能的数据挖掘工具,可以提供灵活有效的任务模型、组织形式,以支持各项决策的数据挖掘任务。
  
数据挖掘与数据仓库的慨念是密不可分的,数据挖掘要求有数据仓库作基础,并要求数据仓库已经存有丰富的数据。数据挖掘比本文后面谈到的多维分析更进一步。例如,如果管理人员要求比较各个区域某类产品销量在过去一年的情况,可以从多维分析中找答案。但是,如果管理人员要问为何一种产品销量在某地区的情况突然变得特别好或不好,或者问该产品在另一地区将会怎样,这些是用多维分析工具难以简单解决的问题,就需要利用数据挖掘工具寻找回答。
  
在实施智能化决策时,一般分两个步骤:第一步实现数据仓库和多维分析,构造智能决策的基础,实现分析应用;第二步实现数据挖掘,再发挥智能化决策的特色。数据挖掘是数据利用价值的再发现,它突破了传统意义上的数据查询,是在更大的尺度上、更深的层次中对数据提高利用的价值,是数据仓库应用的关键。

数据仓库的软件

在上述数据仓库的体系机构中,有各式各样的软件,可分为数据仓库管理软件、数据挖掘软件以及各类工具软件。

数据仓库管理软件
  
数据仓库管理软件提供对数据的访问、抽取、转换、分布、存储及管理等功能。管理软件靠描述性数据查找、理解、显示、分析和挖掘数据,实现数据转换过程的自动化及其管理,缩短从复杂的海量数据(源)到能支持决策的信息之间的差距,有助于进一步实现智能化决策。

数据挖掘软件
  
数据挖掘软件主要是从统计学方面提供相应算法的软件,前面已经有所阐述。值得一提的是,目前有的数据挖掘软件产品不单单用统计方法,还借助智能化的电脑学习或神经网络等技术。

数据仓库工具软件

这里,将工具软件单列出来说明,是因为它具有重要意义:数据仓库不仅仅是个数据的储存仓库,更重要的是它要提供丰富的各种应用工具。各种功能强大的完整工具体系,是数据仓库实现应用的基础。目前一些商家推销的数据仓库软件都带有各自的工具软件,也具有各自的特色。

数据获取工具
  
在数据获取层的一些工具,用来清洗、转换和从别处提取数据,“去其糟粕、取其精华”,将真实的、对决策有用的数据保留下来,使得放在数据仓库的数据有条有理,帮助决策者再通过其它分析工具方便地使用这些数据。

多维分析工具
  
通常,每一个分析的角度可以叫作一个维。因此,多角度分析方式称为多维分析。管理人员往往希望从不同的角度来审视业务数值,例如银行往往从时间、地域、功能、效益、利润来看同一类储蓄的总额。以前,针对每个分析的角度需要制作一张报表。现在,利用在线多维分析工具,可以根据用户常用的多种分析角度,事先分析、考虑构架好一些辅助结构,以便在查询时能尽快抽取到所要的记录,并快速地从一维转变到另一维,从而迅速将不同角度的信息展现出来。

前台分析工具
  
前台分析工具,包括联机分析处理工具(OLAP),可以提供各种分析处理操作功能以及简单易用的图形化界面。图形化界面可以将数据仓库的结果以数字、直方图、饼图、曲线等方式,直观地提供给管理决策人员。管理决策人员也可以*选择要分析的数据、定义分析角度、显示分析结果。前台分析工具,往往需要与多维分析工具配合,作为多维分析服务器的前台界面。

数据获取工具、多维分析及前台分析工具,是数据仓库支持进行决策处理的基础性工具,它们完成对用户数据的整理、观察和总结,其作用是“掌握过去”,知道“是什么”。在此基础上,再利用前面提到的数据挖掘,通过挖掘发现问题、找出规律,知道“为什么”,从而预测未来,达到真正智能化决策的效果。