文件名称:数据挖掘与传统数据分析方法区别-数据仓库与数据挖掘原理及应用
文件大小:2.54MB
文件格式:PPT
更新时间:2024-05-13 18:26:09
外文 论文
数据挖掘与传统数据分析方法区别 (1)数据挖掘的数据源与以前相比有了显著的改变; 数据是海量的; 数据有噪声; 数据可能是非结构化的; (2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来 。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 * 数据挖掘的数据源与以前相比有了显著的改变。首先,数据挖掘出现的背景是“数据爆炸但知识贫乏”,它要处理的数据量已经达到了“太”(万亿)级以上,比传统数据分析方法所处理的数据量超出几个乃至十几个数量级。对于如此大规模的数据量,传统的数据分析方法可能根本不能处理,即使能够处理,效率也是必须考虑的严重问题。因此需要对原有的数据分析方法重新检验,加以改进。其次,传统数据分析方法的数据源一般都是清洁好的、结构化的数据,数据挖掘则需要从不完全的、有噪声的、模糊的数据中发现知识。数据的选取、清洁、转换和集成是数据挖掘的重要组成部分。数据挖掘不仅可以处理结构化的数据,而且可以处理半结构化或者非结构化的数据。事实上,基于文本的数据挖掘甚至互联网上的数据挖掘正是数据挖掘的研究方向之一 。 第二,传统的数据分析方法一般都是先给出一个假设然后通过数据验证之,在一定意义上都是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来[10]。这一点是数据挖掘区别于传统数据分析方法以及新兴的OLAP技术的本质特点。数据挖掘是在事先没有假定想法与问题的情况下,在大量的数据中找出隐含的信息模式。所得到的信息应具有预先未知的特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。