1.简述数据挖掘概念。
从科学定义上分析,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事前不知道的、具有潜在利用价值的信息和知识的过程。
从技术角度分析。数据挖掘就是利用一系列的相关算法和技术,从大数据中提取行业或公司所需要的、有实际应用价值的知识的过程。
数据挖掘是整个知识发现流程中的一个具体步骤,也是知识发现过程中最重要的核心步骤。
2.根据预测方法的性质将预测方法分为哪些类?各有何优缺点?
(1)定性预测方法,对系统过去与现在的经验、判断和直觉进行预测,以人的逻辑判断为主,要求提供系统发展的方向、状态、形式等定性结果,该方法适用于缺乏历史统计数据的系统。
(2)时间序列预测,根据系统对象随时间变化的历史资料,考虑系统变量随时间的变化规律,对系统未来的表现时间进行定量预测,主要包括移动平均法、指数平滑法、趋势平推法等,适用于利用统计数据预测研究对象随时间变化的趋势。
(3)因果关系预测,系统变量之间存在某种前因后果关系,找出影响某种结果的因素,建立因与果之间的数学模型,根据因素变量的变化预测结果变量的变化,既预测系统发展的方向又确定具体的数值变化规律。
3.时序预测方面典型的算法有哪些?各有什么特点?
序贯模式挖掘SPMGC算法,SPMGC算法可以有效地发现有价值的数据序列模式,提供给大数据专家进行各类时间序列的相似性与预测研究。
4.根据研究的方式分类,可将时间序列预测与挖掘分为哪些类?
(1)将时间序列数据作为一种特殊的数据挖掘对象,找寻对应的数据挖掘算法进行研究。
(2)从时间序列数据中提取并组建特征,仍用原有的数据挖掘框架和算法进行数据挖掘。
5.什么是序贯模式挖掘SPMGC算法?
序贯模式挖掘SPMGC算法是基于时间窗口、时间因素、挖掘结果等约束条件组成的广义约束条件给出的算法。SPMGC算法首先对约束条件按照优先级进行排序,然后根据约束条件产生候选序列,SPMGC算法说明了怎样使用约束条件来挖掘序贯模式。
6.数据挖掘的常用算法有哪几类?有哪些主要算法?
(1)分类。在给定数据基础上构建分类函数或分类模型,该函数或模型能够把数据归类为给定类别中的某一类别。主要算法:贝叶斯决策与分类器、SVM算法、
(2)聚类。聚类也就是将抽象对象的集合分为相似对象组成的多个类的过程,聚类过程生成的簇称为一组数据对象的集合。主要算法:层次聚类算法、划分聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法。
(3)关联规则。关联规则就是支持度和信任度分别满足用户给定阈值的规则。主要算法:
(4)时间序列预测。一种历史引申预测法,也即将时间数列所反映的时间发展过程进行引申外推,预测发展趋势的一种方法。主要算法:
7.数据挖掘方法中分类的含义?分类与聚类方法的区别?
分类是一种重要的数据分析方式,根据重要数据类的特征向量值及其他约束条件,构造分类函数或分类模型,目的是根据数据集的特点把未知类别的样本映射到给定类别中。
聚类就是将具体或抽象对象的集合分组由相似对象组成的为多个类或簇的过程。由聚类生成的簇是一组数据对象的集合,簇必须满足:每个簇至少包含一个数据对象,每个数据对象必须属于且唯一的属于一个簇。
分类属于有监督学习,聚类属于无监督学习。
8.时间序列预测方法分哪几类?主要适用领域是哪些?
常用的时间序列预测方法有简单移动平均法、加权移动平均法、指数平滑法和季节因素调整法等。
1)简单移动平均法适用于主要存在随机变动的时间序列。
2)加权移动平均法适用于存在多种变动因素的场合。
3)指数平滑法的作用与加权移动平均法相似,它是通过调整平滑系数来起到反映时间序列特点的作用。
4)季节因素调整法适用于存在很强的季节变动的时间序列。
9.按照数据挖掘的应用场景分类,数据挖掘的应用主要涉及哪些领域?
(1)数据挖掘在电信行业的应用。
(2)数据挖掘在商业银行中的应用。
(3)数据挖掘在信息安全中的应用。
(4)数据挖掘在科学探索中的应用。
10.根据适用的范围,数据挖掘工具分为哪些类?
(1)专用挖掘工具。针对某个特定领域的问题提供解决方案在涉及算法的时候充分考虑数据、需求的特殊性。
(2)通用挖掘工具。通用挖掘工具可以做多种模式的挖掘,至于挖掘的内容与挖掘工具都可以由用户自己来选择。
11.数据挖掘中的挖掘工具有哪些?各有什么特点?
(1)Weka软件。公开的数据挖掘平台,集成大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则,以及交互式界面上可视化。
(2)SPSS软件。SPSS采用类似于Excel表格的方式输入与管理数据,数据接口较为通用,能方便地从其他数据库中读入数据,突出特点是操作界面友好,且输入结果美观。
(3)Clementine软件。Clementine提供出色、广泛的数据挖掘技术,确保用恰当的分析技术来处理相应的商业问题,得到最优结果以应对随时出现的问题。
(4)RapidMiner软件。RapidMiner并不支持分析流程图方式,当包含的运算符比较多时就不容易查看,具有丰富的数据挖掘分析和算法功能,常用于解决各种商业关键问题。
(5)其他数据挖掘软件。流行的数据挖掘软件还包括Orange、Knime与Tanagra等,各有特点以满足不同需求。
12.数据挖掘SPSS软件的适用场合与特点有哪些?
适用场合:SPSS具有完整的数据输入、统计分析、报表、编辑、图形制作等功能,提供从简单的统计描述到复杂的多因素统计分析方法。
SPSS软件特点:操作界面友好,且输出结果美观。