一、数据挖掘产生的背景
1、从数据分析看数据
政治算法、概率论与数理统计、数据挖掘
2、主要原因催生数据挖掘
海量数据的分析需求
应用对理论的挑战
大数据的特征
3V——Volume(海量)、Variety(多样)、Velocity(实时)
海量——数据量巨大,对TB、PB数据级的处理,已经成为基本配置。
多样——处理多样性的数据类型,结构化数据和非结构化数据,能处理Web数据,能处理语音数据甚至是图像、视频数据。
实时——在客户每次浏览页面,每次下订单的过程中都存在,都会需要对用户进行实时的推荐,决策已经变得实时。
二、什么是数据挖掘
数据挖掘(Data Mining)是从海量数据中抽取潜在的,不为人知的有用信息、模式和趋势。
(模式——标志了事物之间隐藏的规律关系)
数据挖掘过程必须是自动的或半自动的(用计算机)
数据的总量总是相当可观的,但从中发现的模式必须是有意义的,并能产生一些效益,通常是经济上的效益。
三、数据挖掘算法
从学习过程的类型划分:有指导的学习算法;无指导的学习算法。
有指导学习。
是指有结果度量(Outcome Measurement)的指导学习过程。
根据一组特征(Features)对结果度量进行预测。
通过学习已知数据集的特征和目标变量建立起预测模型。
根据目标变量是定性还是定量通常分为分类和回归。
无指导学习
在数据中探寻新的模式
归纳和总结数据
常见的数据挖掘算法
(1)分类预测算法
1、决策树算法:
C4.5、C5.0、CART、CHAID、QUEST
2、BP算法
3、回归分析方法
线性回归分析、Logistic回归
(2)探寻内部结构的算法
1、关联规则分析
Apriori算法、序列关联
2、聚类分析
K-means聚类、谱系聚类、两步聚类、Kohonen聚类