数据挖掘常用模型-mbse-overview-incose-30-july-2015

时间:2024-06-29 10:29:09
【文件属性】:

文件名称:数据挖掘常用模型-mbse-overview-incose-30-july-2015

文件大小:5.71MB

文件格式:PDF

更新时间:2024-06-29 10:29:09

数据挖掘

第三章 机器学习概述 3.1 机器学习概述 机器学习方法主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning),半 监督学习和强化学习  监督学习就是分类,通过已有的训练样本去训练得到一个最优模型,然后利用这个最优模型将 所有输入映射为相应的输出,对于输出进行判断实现分类,这就对未知数据进行了分类。监督 学习中的典型例子是 KNN 和 SVM。  无监督学习与监督学习的不同之处,主要是它没有训练样本,而是直接对数据进行建模。典型 案例就是聚类了,其目的是把相似的东西聚在一起,而不关心这一类是什么。聚类算法通常只 需要知道如何计算相似度就可以了,它可能不具有实际意义。  如果在分类过程中有训练样本,则可以考虑采用监督学习的方法,否则不能使用监督学习。 3.2 数据挖掘常用 Python 库  Python 科学计算包: Numpy  数据处理工具包:pandas  绘图和可视化:matplotlib  统计包:statsmodels  Python 算法库和工具包:SciPy  机器学习模块 scikit-learn: 基于 Numpy 和 SciPy,包括分类、回归、聚类系列算法,主要算法 有 SVM、逻辑回归、朴素贝叶斯、Kmeans、DBSCAN 等,目前由 INRI 资助,偶尔 Google 也 资助一点 3.3 数据挖掘常用模型


网友评论