机器学习入门和数学基础(一)
1.机器学习 (Machine Learning, ML)
1.1 概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
1.2 学科定位:人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
1.3 定义:探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。
Arthur Samuel (1959): 一门不需要通过外部程序指示而让计算机有能力自我学习的学科
Langley(1996) : “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”
Tom Michell (1997): “机器学习是对能通过经验自动改进的计算机算法的研究”
1.4: 学习:针对经验E (experience) 和一系列的任务 T (tasks) 和一定表现的衡量 P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力
例子: 下棋,语音识别,自动驾驶汽车等
2. 机器学习的应用:语音识别,自动驾驶, 语言翻译,计算机视觉,推荐系统,无人机,识别垃圾邮件
3. 举例子: 人脸识别,无人驾驶汽车,电商推荐系统
-----------------------------------------------------------------
1. 基本概念:训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
2.
概念学习
:人类学习概念:鸟,车,计算机
定义:
概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数
3. 例子:学习 “享受运动" 这一概念:
小明进行水上运动,是否享受运动取决于很多因素
天气:晴,阴,雨
温度:暖,冷
湿度:普通,大
风力:强,弱
水温:暖,冷
预报:一样,变化
享受运动:是,否
样例 | 天气 | 温度 | 湿度 | 风力 | 水温 | 预报 | 享受运动 |
1 | 晴 | 暖 | 普通 | 强 | 暖 | 一样 | 是 |
2 | 晴 | 暖 | 大 | 强 | 暖 | 一样 | 是 |
3 | 雨 | 冷 | 大 | 强 | 暖 | 变化 | 否 |
4 | 晴 | 暖 | 大 | 强 | 冷 | 变化 | 是 |
概念定义在实例(instance)集合之上,这个集合表示为X。(X:所有可能的日子,每个日子的值由 天气,温度,湿度,风力,水温,预报6个属性表示。
待学习的概念或目标函数成为
目标概念(target concept), 记做c。
c(x) = 1, 当享受运动时, c(x) = 0 当不享受运动时,c(x)也可叫做y
x: 每一个实例
X: 样例, 所有实例的集合
学习目标:f: X -> Y
4.
训练集(training set/data)/训练样例(training examples): 用来进行训练,也就是产生模型或者算法的数据集
测试集(testing set/data)/测试样例 (testing examples):用来专门进行测试已经学习好的模型或者算法的数据集
特征向量(features/feature vector):
属性的集合,通常用一个向量来表示,附属于一个实例
标记(label): c(x), 实例
类别的标记
正例(positive example)
反例(negative example)
5. 例子:研究美国硅谷房价
影响房价的两个重要因素:面积(平方米),学区(评分1-10)
样例 | 面积(平方米) | 学区 | 房价 (1000$) |
1 | 100 | 8 | 1000 |
2 | 120 | 9 | 1300 |
3 | 60 | 6 | 800 |
4 | 80 | 9 | 1100 |
5 | 95 | 5 | 850 |
6. 分类 (classification): 目标标记为类别型数据(category)
回归(regression): 目标标记为
连续性数值 (continuous numeric value)
7. 例子:研究肿瘤良性,恶性于尺寸,颜色的关系
特征值:肿瘤尺寸,颜色
标记:良性/恶性
有监督学习(supervised learning): 训练集有类别标记(class label)
无监督学习(unsupervised learning): 无类别标记(class label)
半监督学习(semi-supervised learning):
有类别标记的训练集 + 无标记的训练集
8. 机器学习步骤框架
8.1 把数据拆分为
训练集和测试集
8.2 用训练集和训练集的
特征向量来训练算法
8.2 用学习来的
算法运用在测试集上来评估算法 (可能要涉及到
调整参数(parameter tuning), 用
验证集(validation set)
100 天: 训练集
10天:测试集 (不知道是否 ” 享受运动“, 知道6个属性,来预测每一天是否享受运动)
-----------------------------------------------------------------
1.机器学习:计算机模拟人类学习行为,获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身。
计算机从数据中学习出规律和模式,以应用在新数据上做预测任务。
2.学习现象:
语言,文字的认知识别
图像,场景,自然物体的认知识别;
规则:eg:下雨天要带伞;
智能:复杂的推理,判断能力:好人或者坏人?真诚或者虚伪?
数据-------学习------------知识{认知,推理,决策,识别}
3. 学术上的描述:对于给定的任务T,在合理的性能度量方案P的前提下,某计算机程序可以自主学习任务T的经验E,随着提供合适的,优质,大量的经验E,该程序对于任务T的性能逐步提高。
机器学习的对象:
任务Task ,T,一个或者多个;
经验Experience,E;
性能Performance,P
学习=在某项任务上总结与积攒经验;
例子:下棋
任务T:下棋
性能目标P:击败对手的百分比;
训练经验E:和自己对弈;看棋谱学习;
机器学习是人工智能的一个分支。是人工智能实现的一个手段。
相关数学:
高等数学:导数/梯度 Taylor展开 凸函数
概率论:古典概率 贝叶斯公式 常见概率分布
4.机器学习分类:
监督学习
:分类预测,回归分析;-------用户点击,购买预测,房价预测;
无监督学习
:聚类,关联规则;--------邮件新闻聚类;
强化学习
:Q-learning, 时间差学习;---------动态系统以及机器人控制;
4.1 监督学习
:特征1+特征2+...+特征n------目标
身高+发长+抽烟--------性别
4.2 无监督学习:
特征1+特征2+...+特征n--------聚类1,聚类2
4.3 增强式学习/RL
Agent感知环境,做出动作,根据奖惩状态/feedback做出调整和选择;
5.machine learning algorithms
离散型,连续型,监督型,无监督;
6.高等数学基础:
6.1 夹逼定理
6.2 导数和二阶导数;
6.3 泰勒展开式;
6.4 方向导数,梯度;
6.5 凸函数;
7.概率论相关
1.古典概率;
2.贝叶斯公式;
3.常见概率分布;