数据挖掘概念

从大量的、不完全的、有噪音的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程，定义为“数据挖掘”。

数据挖掘主要基于：数理统计、人工智能、机器学习、人工神经网络等技术。

数据挖掘的最高境界：从数据中获取知识，辅助科学决策。

数据挖掘的功能主要包括：关联分析、聚类分析、分类、回归、时间序列分析和偏差甄别。

1、关联分析：尿布与啤酒、KFC的套餐、癌症与生活习惯，主要算法有Apriori算法。

Apriori算法：首先从事件中集中寻找所有频繁出现的事件子集，然后在这些子集中发现可信度较高的规则。

2、聚类：就是将数据对象划分成若干个类，在同一类中的对象具有较高的相似度，而不同类中的对象差异较大。

如何度量对象的相似度？二个对象间的距离越小，说明二者越相似，用距离度量对象的相似性应该是

最自然的方法。

聚类的算法：划分方法和层次聚类方法。

3、

秒客网