数据挖掘技术分析.doc

时间:2022-12-23 23:48:27
【文件属性】:

文件名称:数据挖掘技术分析.doc

文件大小:32KB

文件格式:DOC

更新时间:2022-12-23 23:48:27

文档资料

数据挖掘技术分析 作者:孔洁 刘杨 来源:《电脑知识与技术》2017年第32期 摘要:随着时代的发展,人们对有价值的数据需求越来越迫切,因此,需要一 种新的技术来处理大量的数据数据,并从中抽取我们需要的信息。数据挖掘技术是一门 涉及面很广的学科,综合了统计学的方法,同时又超越了传统意义上的统计分析。数据 挖掘就是从海量的数据当中,通过运用技术手段,提炼出我们所需要的有用的数据的过 程。该文介绍了数据挖掘技术的基本概念、数据挖掘的功能以及数据挖掘的常用的技术 。 关键词:数据挖掘;决策树;OLAP 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)32-0009- 02 1 什么是数据挖掘 数据挖掘就是通过一定的技术来分析大量的数据,从中找出对我们有用的数据 的过程,即从存放在数据库中的数据中获取有效的、有价值、最终能被我们所利用的数 据。若我们在一个网站买书,系统会根据我们近期所购买的书的记录进行分析,然后在 我们下次登录该网站时,自行向我们推荐其他类型的书籍,这里就是用到了数据挖掘的 理论和方法。 2 数据挖掘的功能 1) 分类 所谓分类就是按照分析对象的特征,建立类组。也就是说分类就是它所预测的 结果是一个类别而不是一个具体的数。比如:我猜你是四川人,这个就是分类问题。在 商业案例中分类问题很多,再比如通过银行的一个客户信息,可以预测一下他是否会购 买基金,大概的数额;他是否会办信用卡等等。 2) 聚类 面对海量的数据,首先分类,然后是聚类,属性接近的划归为一类,合理归类 以后,每一类有自己的特征。聚类问题主要解决把一定范围内的对象划分为若干个组。 它的特点是根据所选的目标来进行划分。比如:银行的客户,我们首先选定几个指标: 年收入、年龄、性别等,然后对他们进行划分,特征相似的为一类,特征不同的分属不 同的类。 3) 估计与预测 估计就是根据已有的长期积累的数据来推测未知的信息,例如银行根据信用卡 申请人的单位性质、年龄、性别等信息推算他的消费水平。所使用的技术有统计方法中 的相关分析、回归分析等等。所谓预测就是根据对象属性的过去值预测他的未来值。比 如:通过查看一个持卡人以往的消费值来预测他今后的消费,使用的技术包括回归分析 、时间序列分析等。 4) 关联 就是找出在一个事件中同时出现的事情,确定那些相关的对象应该放在一起。 5) 描述 描述的就是对复杂的数据库提供简单明了的说明,描述的主要目的是对数据先 有个了解,这样有助于怎样去建模。 3 数据挖掘的主要方法 1) 决策树法 决策树是一种对实例进行分类的树形结构,由节点和有向边组成。节点的类型 有2种:内部节点和叶子节点。内部节点一般表示一个特征或属性的测试条件,叶子节点 则表示一个分类。 当我们构造了一个决策树模型,以它为基础来进行分类是很容易的。具体就是 :从根节点开始,按照实例的某一特征进行测试,根据测试结构将实例分配到子节点, 当沿着该分支可能到达叶子节点或到达另一个内部节点时,就使用新的测试条件递归执 行下去,直到到达一个叶子节点。当到达叶子节点时,就得到了最终的分类结果。 决策树它是一种建立在信息论基础之上的对数据分类的一种方法。具体就是: 通过已知的一批样本数据建立一棵决策树,然后利用已经建好的决策树来对数据进行预 测。决策树的建立过程我们可以看做是数据规则的生成过程。决策树方法精确度高,效 率也高,比较常用。 决策树法是目前应用非常广泛的一种逻辑方法,生成决策树一个著名的算法是 C4.5算法。 2) 神经网络法 神经网络它是建立在数学模型之上的,我们通过对大量的、复杂的数据进行分 析研究,可以完成非常复杂的趋势分析。神经网络系统它是由一系列类似于人脑神经元 的处理单元构成的,我们称之为节点。这些节点可以通过网络进行互联。如果有数据输 入,就可以确定数据模式的工作。 3) 关联规则法 关联规则是数据挖掘技术中的一种技术,它是一种非常简单但很实用的一种规 则,描述了一个事物如果某些属性同时出现的规律。关联规则分析就是根据一定的可信 度、支持度等建立相关规则,可以帮助很多商务决策的制定。 4) 聚类分析法 聚类分析就是把一组信息按照相似度归成若干类别。聚类方法包括统计方法、 神经网络法和面向数据库法等方法。聚类分析具体说就是依据样本或变量之间关联的量 度标准将其自动分为几个组,并且同一个群内样本相似,而不同组之间的样本相异。 5) 遗传算法 遗传算法它是一种基于生物进化论和分子遗传学的算法,第一步,将问题的所 有可能解按照某种方式进行编码;第二步,从中随机地选取M个染色体作为初始种群;第 三步,根据预定的评价函数对每个染色体计算适应值,然后选择适应值较高的染色体进 行复制;最后通过遗传算子生成新的能够更好适应环境的染色体,从而生


网友评论