第一章 数据仓库和数据挖掘概述
一、概念题
1、数据仓库的定义是什么?
答:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理*决策制定过程。
2、数据仓库的特点是什么?
答:数据仓库的特点是:
(1)数据仓库是面向主题的;
(2)数据仓库是集成的;
(3)数据仓库是稳定的;
(4)数据仓库是随时间变化的;
(5)数据仓库中的数据量大;
(6)数据仓库软硬件要求较高。
3、什么是商业智能?
答:商业智能以数据库为基准,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。
二、简答题
1、数据仓库和数据挖掘的区别和联系。
区别:
数据仓库是一种存储技术,它的数据存储量是一般数据库的100倍,它包含大量的历史数据、当前的详细数据以及综合数据。它能适应于不同用户对不同决策需要提供所需的数据和信息。
数据挖掘是从人工智能机器学习中发展起来的。它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
联系:
数据仓库和数据挖掘都是决策支持新技术。但他们有着完全不同的辅助决策方式。数据仓库中存储着大量辅助决策的数据,它为不同的用户随时提供各种辅助决策的随机查询、综合信息或趋势分析信息。数据挖掘是利用一系列算法挖掘数据中隐含的信息和知识,让用户在进行决策中使用。
第二章 数据仓库原理
一、概念题
1、数据仓库结构图是什么?
2、数据集市的定义是什么?
答:数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案,它包括两种,即独立的数据集市,它的数据直接来源于各生产系统;从属数据集市,它的数据直接来自于*数据仓库。
3、多维数据模型有哪些?
答:对于逻辑数据模型,使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。
4、ETL过程是什么?
答:数据仓库的数据获取需要经过抽取、转换、装载三个过程,即ETL过程。
5、元数据的定义及特点是什么?
元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心,元数据可分为四类,分别为关于数据源的元数据、关于数据模型的元数据、关于数据仓库映射的元数据和关于数据仓库使用的元数据。元数据不仅定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。
二、简答题
1、数据集市的特性
数据集市有如下特性:
(1)规模是小的;
(2)特定的应用;
(3)面向部门;
(4)由业务部门定义,设计和开发;
(5)由业务部门管理和维护;
(6)快速实现;
(7)价格较低廉;
(8)投资快速回收;
(9)工具集的紧密集成;
(10)更详细、预先存在的数据仓库的摘要子集;
(11)可升级到完整的数据仓库。
2、ETL过程的主要步骤
(1)决定数据仓库中需要的所有的目标数据;
(2)决定所有的数据源,包括内部和外部的数据源;
(3)准备从源数据到目标数据的数据映射关系;
(4)建立全面的数据抽取规则;
(5)决定数据转换和清洗规则;
(6)为综合表制定计划;
(7)组织数据缓冲区域和检测工具;
(8)为所有的数据装载编写规程;
(9)维度表的抽取、转换和装载;
(10)事实表的抽取、转换和装载。
3、数据装载方式有哪些?
答:
(1)基本转载:按转载的目标表,将转换过的数据输入到目标表中去。
(2)追加:如果目标表中已存在数据,追加过程在保存已有数据的基础上增加数据。
(3)破坏性合并:当输入数据记录的主键与一条已存在的记录的键互相匹配时,用新输入的数据更新目标记录数据。
(4)建设性合并:当输入记录主键与已有记录的键相匹配时,保留已有的记录,增加输入的记录,并标记为旧的记录的替代。
4、数据装载类型有哪些?
数据装载类型包括三种:最初装载、增量装载和完全刷新。
(1)最初装载:这是第一次对整个数据仓库进行装载。
(2)增量装载:由于源系统的变化,数据仓库需要装载变化的数据,这就是增量装载。
(3)完全刷新:这种类型的数据装载用于周期性重写数据仓库。
第三章 第四章
一、概念题
1、OLAP的基本思想是什么?
答:OLAP的基本思想是企业的决策者应能灵活地,从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。
2、OLAP的定义及特点
答:联机分析处理是共享多维信息的快速分析,其特点是:快速性、可分析性、多维性和信息性。
3、OLAP的数据模型有哪些?
答:OLAP的数据模型主要有:MOLAP是基于多维数据库的OLAP;ROLAP是基于关系数据库的OLAP;HOLAP即混合OLAP介于MOLAP和ROLAP之间。
4、基本多维数据分析的基本操作有哪些?
答:基本多维数据分析的基本操作包括切片、切块、旋转、钻取等。
5、基本代理操作是什么?
“代理”是一些只能性代理,当系统处于某种特殊状态时提醒分析员,即示警报告、时间报告和异常报告。
6、什么是概念模型及特点?
答:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,即概念模型,其特点是:
(1)能真实反映现实世界;
(2)易于理解;
(3)易于更改;
(4)易于向数据仓库的数据模型转换。
7、逻辑模型设计的定义及主要工作是什么?
答:逻辑模型设计是把概念模型设计好的E—R图转换成计算机所支持的数据模型,主要工作为:
(1)主题域进行概念模型到逻辑模型的转换;
(2)粒度层次划分;
(3)关系模式定义;
(4)定义记录系统。
8、粒度的定义
答:所谓粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,层次级别就越低;数据综合度越高,粒度越大,层次级别就越高。
9、什么是物理模型设计及主要工作?
答:数据仓库的物理模型设计是为逻辑模型设计的数据模型确定一个最适合应用要求的物理结构;其工作是估计存储量,确定数据的存储结构,确定索引,确定数据存放位置,确定存储分配。
二、简答题
1、数据分析模型有哪些?
答:(1)绝对模型
它属于静态数据分析,通过比较历史数据值或行为来描述过去发生的事实。
(2)解释模型
它也属于静态数据分析,分析人员利用系统已有的多层次的综合路径层层细化,找出事实发生的原因。
(3)思考模型
它属于动态数据分析,旨在说明在一维或多维上引入一组具体变量或参数后将会发生什么。
(4)公式模型
它的动态数据分析能力更强,该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。
2、实现基于WEB的OLAP的三种方法
(1)静态的Html报表;
(2)通过Html模仿、元数据动态生成报表;
(3)使用Java或ActiveX的改进方式。
3、B—Tree技术与Bit—Wise索引技术对比
Bit—Wise索引技术比B—Tree技术能提高响应速度10——100倍。
(1)B—Tree索引技术特点
按行存储数据;
针对具体查询来建立查询驱动的索引机制;
存储被索引的字段数据;
一列允许一个索引;
适合于高基数字段;
(2)Bit—Wise索引技术特点
按列存储数据;
针对实际特征建索引;
不存储实际索引字段内容;
一列允许多个索引;
数据压缩技术和位操作技术;
适合于低基数字段,兼顾高基数字段。
4、数据污染产生的原因有哪些?
答:(1)系统转换
由于系统升级而发生变化时,在文件转换过程中,会对数据产生污染。系统转换和迁移是数据污染的重要原因。查找数据污染需要了解每一次源系统所经过转换过程。
(2)数据老化
在源系统中有很多旧系统时,旧的值随着时间的变化会失去它的含义和意义,逐渐形成数据污染。
(3)复杂的系统集成
数据不一致会产生数据污染。数据仓库的源系统种类越多,出现污染数据的可能性大。
(4)数据输入的不完整信息
在初始数据输入时,没有完全输入所有的字段,将导致数据值缺失;对必须输入的字段,随便输入一些通用数据,也将产生数据污染。
(5)输入错误
错误的数据输入也是数据污染的一个主要来源。
(6)欺诈
有些人为了欺诈,千方百计地往系统中输入错误的数据,特别是涉及金额或产品数量的字段。
(7)缺乏相关政策
如果公司对数据质量没有明确的相关政策,它的数据质量就不可能得到保证。
第五章
一、概念题
1、什么是休眠数据?
答:是那些存在于数据仓库中,当前不使用,将来也很少使用或不使用的数据。
二、简答题
1、休眠数据产生的原因是什么?
(1)在数据仓库中输入了过多的近期基本数据
(2)过多的增加了不必要的综合数据
(3)历史数据用于预测,由于过高的估计所需要的历史数据的时间长度,超过了预测需求的历史数据。
2、监视休眠数据有哪些?
监视休眠数据分为三级:表格级休眠、列级休眠、值级休眠
(1)表格级休眠:通常出现于小表格和包括概括数据的表格中,这些类型的表格通常是在数据临时被使用时创建。
(2)列级休眠:造成列级休眠的原因是最终用户没有真正认识到某列在将来会有什么用途,但在涉及数据仓库时却指定了需要此列。
(3)值级休眠:这是一种非常普通的数据休眠类型,产生值级休眠的原因是最终用户指定了过多的大量的历史数据。
第六章 数据挖掘原理
一、概念题
1、知识发现(KDD)的定义是什么?
答:KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。
2、数据挖掘任务是什么?
答:数据挖掘任务有六项:关联分析、时序模式、聚类、分类、偏差检测、预测。
3、数据挖掘方法和技术可以分为六大类,都有哪些?
答:(1)归纳学习的信息论方法;
(2)归纳学习的集合论方法;
(3)仿生物技术的神经网络方法;
(4)仿生物技术的遗传算法;
(5)数值数据的公式发现;
(6)可视化技术。
4、数据挖掘的知识表示类型有哪些?
答:数据挖掘各种方法获得的知识的表示形式,主要有六种:规则、决策树、知识基、网络权值、公式和案例。
第七章 信息论方法
一、概念题
1、什么是决策树?
答:决策树是用样本的属性作为结点,用属性的取值作为分支结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根节点是所有样本中信息量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。
第十一章 文本挖掘和Web挖掘
一、概念题
1、什么是文本挖掘?
答:文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程,文本挖掘面临的主要问题是挖掘对象的半结构化和非结构化。
2、文本挖掘功能层次是什么?
3、Web信息的特点是什么?
答:(1)web信息特别庞大;
(2)Web信息非常复杂;
(3)Web信息是动态的;
(4)Web信息使用者复杂;
(5)Web信息中的“垃圾”非常多。
4、什么是召回(recall)和精度(precision)?
答:精度回答了在返回网页中,正确的标题的比例是多少的问题;召回则是回答返回了多少正确网页的问题。
5、Page—rank的基本思想是什么?
答:(1)一个页面被多次引用,则这个页面很可能是重要的;
(2)一个页面尽管没有被多次引用,但被一个重要的页面引用,则这个页面很可能是重要的;
(3)一个页面的重要性被均分并被传递到它所引用的页面。
二、简答题:
1、文本挖掘和数据挖掘的区别是什么?
|
数据挖掘 |
文本挖掘 |
研究对象 |
用数字表示的、结构化的数据 |
无结构或者半结构化的文本 |
对象结构 |
关系数据库 |
*开放的文本 |
目标 |
获取知识,预测以后的状态 |
提取概念和知识 |
方法 |
归纳学习、决策树、神经网络、粗糙集、遗传算法等 |
提取短语、形成概念、关联分析、聚类、分类 |
成熟度 |
从1994年开始得到广泛应用 |
从2000年开始得到广泛应用 |
2、Web挖掘的分类有哪些?
(1)Web内容挖掘
内容挖掘是用来提取文字、图片或其他组成网页内容成分的信息和知识。
(2)Web结构挖掘
结构挖掘是用来提取网络的拓扑信息。
(3)Web应用挖掘
应用挖掘是用来提取关于客户如何运用浏览器浏览和使用页面链接的信息。
3、中枢(hub)和权威(authority)方法是什么?
答:一个链接到许多权威 站点的站点叫做中枢(hub);被许多中枢链接的站点叫做权威。
中枢/权威方法是1998年提出的,基本思想是:通常好的中枢是指向许多好的权威的页面,好的权威是由许多好的中枢指向的,这种中枢与权威之间的相互作用可用于权威页面挖掘和高质量Web结构及资源的自动发现。
第十二章
1、决策支持系统结构
2、智能决策支持系统
3、基于数据仓库的决策支持系统
4、综合决策支持系统结构(简答题)
综合决策支持系统的三个主体:
(1)模型库系统和数据库系统结合的主体。该主体完成多模型的组合与大量共享数据的处理,是利用模型资源辅助决策的;
(2)数据仓库系统与联机分析处理(OLAP)结合的主体。该主体完成对数据仓库中数据的综合、预测和多维数据分析,是利用数据资源辅助决策的;
(3)知识库系统(知识库、推理机和知识库管理系统)与数据挖掘结合的主体。该主体完成知识推理,是利用知识资源辅助决策的。