大数据分析方法.pdf

时间:2022-12-24 12:01:01
【文件属性】:

文件名称:大数据分析方法.pdf

文件大小:169KB

文件格式:PDF

更新时间:2022-12-24 12:01:01

文档资料

1 大数据是 2012 的时髦词汇,正受到越来越多人的关注和谈论。大数据之所以受到人们 的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会。 大数据时代,数据挖掘是最关键的工作。以下内容供个人学习用,感兴趣的朋友可以看 一下。 智库百科是这样描述数据挖掘的 "数据挖掘又称数据库中的知识发现, 是目前人工智能 和数据库领域研究的热点问题, 所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、 先 前未知的并有潜在价值的信息的非平凡过程。 数据挖掘是一种决策支持过程, 它主要基于人 工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的 数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险, 做出正确的决策。 数据挖掘的定义 技术上的定义及含义 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应 用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣 的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持 特定的发现问题。 与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知 识发现、数据分析和决策支持等。 ----何为知识从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规 则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿 或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如 文本、 图形和图像数据;甚至是分布在网络上的异构型数据。 发现知识的方法可以是数学的, 也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查 询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉 学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支 持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数 理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的 研究领域,形成新的技术热点。 这里所说的知识发现, 不是要求发现放之四海而皆准的真理, 也不是要去发现崭新的自 然科学定理和纯数学公式, 更不是什么机器定理证明。 实际上, 所有发现的知识都是相对的, 是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然 语言表达所发现的结果。 商业角度的定义 数据挖掘是一种新的商业信息处理技术, 其主要特点是对商业数据库中的大量业务数据 进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 简而言之, 数据挖掘其实是一类深层次的数据分析方法。 数据分析本身已经有很多年的 历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限 制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化 的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是 由于纯机会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的需 要,更主要是为商业决策提供真正有价值的信息,进而 获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值 的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信 息,就像从矿石中淘金一样,数据挖掘也因此而得名。 因此, 数据挖掘可以描述为: 按企业既定业务目标, 对大量的企业数据进行探索和分析, 揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 数据挖掘常用的方法 利用数据挖掘进行数据分析常用的方法主要有分类、 回归分析、 聚类、 关联规则、 特征、 变化和偏差分析、Web 页挖掘等, 它们分别从不同的角度对数据进行挖掘。 分类。 分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同 的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到 客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽 车零售商将客户按照对汽车的喜好划分成不同的类, 这样营销人员就可以将新型汽车的广告 手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。 回归分析。 回归分析方法反映的是事务数据库中属性值在时间上的特征, 产生一个将 数据项映射到一个实值预测变量的函数, 发现变量或属性间的依赖关系, 其主要研究问题包 括数据序列的趋势特征、


网友评论