机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

本文重点参考：唐宇迪博士的课程PPT [特别鸣谢]
完整版资料下载：机器学习算法原理详解+代码实战

1.回归算法

机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

决策树实际上是根据样本的特征个数对样本进行一步一步的细分，每个节点都将把样本按照一个衡量标准进行筛选，直到所有的样本筛选完成为止，而先筛选出来的样本将被作为前边的节点，后被筛选出的节点顺序也将往后排序
决策树的衡量标准为信息熵：
决策树过拟合风险很大

机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

Bagging模型，全称bootstrap aggregation，其实质为并行训练一堆分类器

构造树模型
集成：之所以要进行随机，是要保证泛化能力，如果树都一样，那就没意义了
优势：
- 它能够处理很高维度（feature很多）的数据，并且不用做特征选择
- 在训练完后，它能够给出哪些feature比较重要
- 容易做成并行化方法，速度比较快
- 可以进行可视化展示，便于分析

机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

主要解决的问题：
- 正向概率：假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率是多大
- 逆向概率：如果我们事先并不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个（或好几个）球，观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测
贝叶斯公式：

分类问题：将两个集群分隔开来的距离最近的向量成为支持向量，详解参考：https://blog.csdn.net/yohnyang/article/details/124081760

机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

算法原理推导：
EM算法流程
- 初始化分布参数 $\theta$
- E-Step：根据参数 $\theta$ 计算每个样本属于 zi 的概率(也就是我们的Q)
- M-Step：根据Q，求出含有 $\theta$ 的似然函数的下届并最大化它，得到新的参数 $\theta$
- 不断的迭代更新下去

机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

常规方法：
实现流程：
- 1.预处理你的数据：对你数据中的特征进行归一化（normalize），让其具有零平均值（zero mean）和单位方差（unit variance）。
- 2.如果数据是高维数据，考虑使用降维方法，比如PCA
- 3.将数据随机分入训练集和验证集。按照一般规律，70%-90% 数据作为训练集
- 4.在验证集上调优，尝试足够多的k值，尝试L1和L2两种范数计算方式。
关于损失函数：
神经网络，详解-> https://blog.csdn.net/yohnyang/article/details/124516301
模型组成结构：
举例：