数据挖掘||数据挖掘中中英文概念及其解释&数据挖掘产生的技术背景&数据挖掘应用

时间:2024-01-25 18:23:59

1.1 给出下列英文或缩写的中文名称和简单含义

data mining   

数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取 隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程。

artificial intelligence   

人工智能:是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

machine learning   

机器学习:专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。

knowledge engineering   

知识工程:是一门新兴的工程技术学科。它产生于社会科学与自然科学的相互交叉和科学技术与工程技术的相互融合。“知识工程”研究的内容是如何组成由电子计算机和现代通讯技术结合而成的新的通讯教育、控制系统。“知识工程”研究的中心,是“智能软件服务”,即研究编制程序,提供软件服务。

information retrieval

信息检索:信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术,也就是我们常说的信息查寻。

data retrieval 

数据检索:根据?户需求,从数据库提取数据,?成数据表。

KDD 

知识发现:知识发现是从各种信息中,根据不同的需求获得知识的过程。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有效的、新颖的、潜在有用的知识,直接向使用者报告。


1.2 提出3个数据挖掘可以应用的场景,并简单分析。

一个网上书店,用OLAP技术可以浏览到什么时间,那个类别的客户买了多少书等信息,如果想动态的获得深层次的信息,比如:哪些书籍可以打包推荐,哪些书籍可以在销售中关联推出等等,就要用到数据挖掘技术了。

②商场购物:究商品需要什么样的数据呢?消费购物单,就是我们需要超市机构反馈给我们的票单据(小单子),这是我们商品的购买数据。除了商品的购买数据,还需要什么数据?我们除了要研究商品,还要研究消费者。研究消费者需要消费者个人属性数据。

③从某电商网站上抓取到的香水产品销量数据,分析香水销售的影响;并香水销售商判定采购计划以及用户选择香水提供依据。



1.3 解释DM作为KDD关键步骤的合理性。

请根据你的理解,为什么将数据挖掘(Data Mining)看做为KDD的一个重要步骤是合理的?

答:从定义来讲:数据挖掘。

KDD:Knowledge Discovery From Data  从数据到知识 ;KDD 完整流程 : 第六个步骤就是 数据挖掘 , 数据挖掘大约占 KDD 的 1/4 工作量 ;

① 数据源 : 数据源的海量数据

② 数据继承 ( 过程 ) : 通过数据采集 , 从海量数据中采集目标数据 ;

③ 目标数据 : 产生目标数据 ;

④ 数据预处理 ( 过程 ) : 预处理目标数据 , 生成洁净数据 ;

⑤ 洁净数据 : 产生洁净数据 ;

⑥ 数据挖掘 ( 过程 ) : 使用数据挖掘 , 从洁净数据中发现模式 ;

⑦ 模式 : 得到模式 ;

⑧ 评估表示 ( 过程 ) : 评估表示 数据挖掘得到的模式 , 得到知识 ;

⑨ 知识 : 最终得到的知识 ;



1.4简述数据挖掘产生的技术背景。

就数据挖掘技术来源的基础学科支撑,简述数据挖掘产生的技术背景。

1.四种主要技术激发了人们对数据挖掘技术的开发、应用和研究的兴趣:

(1)超大规模数据库的出现,如商业数据仓库和计算机自动收集数据记录手段的普及

(2)先进的计算机技术,如更快和更大的计算能力和并行体系结构

(3)对海量数据的快速访问,例如分布式数据存储系统的应用

(4)统计方法在数据处理领域应用的不断深入

2.大量信息给人们带来方便的同时也带来一大堆问题:

(1)信息冗余、信息真假难以辨识、信息安全难以保证、信息形式不一、难以统一处理等。

(2)“数据过剩”、“信息爆炸”和“知识贫乏”等现象相继产生。

3.数据挖掘首次出现在1989年举行的第十一届国际联合人工智能学术会议上。

4.数据挖掘思想来自于机器学习、数据库系统、模式识别和统计。

1.5请为学生成绩分析的目标建立一数据仓库:

大学的教务管理系统包括成绩录入、成绩统计报表、成绩管理三个功能模块,基本能满足数据信息化管理、数据查询和简单的统计功能,随着学生数量的增加和课程数量的增加,以及教学管理要求的提高,原来的教务系统已不能满足工作需要。

原有教务系统中表如下:

1成绩表(学生号,课程号,成绩);

2学生表(学号,姓名,性别,出生日期,籍贯,职务,班级号);

3班级表(班级号,班级名,系号);

4系表(系号,系名称,学院号);

5学院(学院号,学院名称);

6课程表(课程号,课程名称,课程性质,学期号);

7学期表(学期号,学年名,学期名);

8教师表(教师号,教师姓名,性别,职称,出生日期,籍贯);

9教师授课表(教师号,课程号,上课教室号);教室表(教室号,教室地址,管理员)。

请为学生成绩分析的目标建立一数据仓库:

(一)请问什么是数据仓库?并分析建立数据仓库的必要性。

(二)设计此数据仓库的星型模型。(只需给出事实表和维度表即可,并给出连接字段)。

要求:在系统编辑器里直接提交答案,不要附件上传。(建议:可在word里包括图片等先写出来,然后复制到编辑器里以保证格式标准)


(一)请问什么是数据仓库?并分析建立数据仓库的必要性。

答:1)数据仓库是一种分析数据库,数据仓库是面向主题的、集成的、稳定的和随时间变化的数据集合。用于存储和处理数据,以便对数据进行分析。数据仓库的两个主要功能:存储分析数据和处理分析数据。

2)必要性:

①数据仓库是用于支持决策的,帮助人对数据进行分析处理,这一点它有别于操作型数据库。

② 数据仓库是多个异构数据源的有效集成,集成够按照主题进行重组,为了方便分析,它包含历史数据,而且存放在数据仓库中的数据一般不再修改。


(二)设计此数据仓库的星型模型。(只需给出事实表和维度表即可,并给出连接字段)。

答:

数据挖掘||数据挖掘中中英文概念及其解释&数据挖掘产生的技术背景&数据挖掘应用_DM


1.6简单地描述下列英文缩写或短语的含义. 

(1)Parallel Association RuleMining 

并行关联规则挖掘:如apriori算法是第一个关联规则挖掘算法,利用逐层搜索的迭代方法找出数据库中的项集(项的集合)的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉没必要的中间结果)组成。是一种挖掘关联规则的频繁项集算法,一种最有影响的挖掘布尔关联规则频繁项集的算法。核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

(2)Quantities Association Rule Mining

数量关联规则挖掘:同时包括分类属性和数量属性的关联规则。


(3)Frequent Item set

频繁项目集:给定全局项目集I和数据库D,D中所有满足用户指定的最小支 持度(minsupport)的项目集,即大于或等于minsupport的I的非空子集,称为频 繁项目集(频集:Frequent Item sets)或者大项目集(Large Itemsets)。


(4)Maximal Frequent Item set

最大频集:在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集(最大频集:Maximum Frequent Item sets)或最大大项目集(Maximum Large Itemsets)。


(5)Closed Itemset 

闭项集

1.7解释下列概念.

(1)多层次关联规则:

可分为同层关联规则和层间关联规则;多层次关联规则挖掘的度量方法可以沿用“支持度-可信度”的框架;多层次关联规则挖掘有两种基本的设置支持度的策略。 

(2)多维关联规则

处理各个属性之间的某些关系。


(3)事务数据库

设I={i1,i2,…,im}是一个项目集合,事务数据库D={t1,t2,…,tn}是由一 系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上的 一个子集。

一个事务数据库可以用来刻画:–购物记录:I是全部物品集合,D是购物清单,每个元组ti是一次购买物品 的集合(它当然是I的一个子集)。


(4)购物篮分析

关联分析:例子—啤酒与尿布;购物篮分析的关键衡量指标有三个:支持度、置信度、提升度;


(5)强关联规则

衡量关联规则有两个标准,一个叫支持度,另一个叫置信度。如果两个都高于阈值,那么叫做强关联规则。