【算法面经】《百面机器学习 算法工程师带你去面试》笔记
特征工程 1. 结构化数据:表 非结构化数据:图像、音频、视频 2.归一化:梯度下降求解更快 Min-max归一化:(x-min)/(max-min) z-score归一化:(x-u)/σ 3.类别型特征 序号编码:保留相对大小关系 独热编码:需要配合特征选择或者使用稀疏向量节省空间 二进制编码:0...
百面机器学习—2. 特征工程与模型评估要点总结
文章目录 一、 特征归一化与标准化问题1. 什么是归一化?2. 有哪些归一化方法?3. 为什么要对数值类型特征做归一化?4. 标准化与归一化的区别二、 组合特征的相关问题1. 什么是组合特征?2. 怎么处理高维组合特征?3. 怎样有效的找到组合特征?三、如何处理类别型特征?四、文本处理部分问...
百面机器学习—3.逻辑回归与决策树要点总结
文章目录 一、逻辑回归1.逻辑回归公式推导2.逻辑回归优缺点是什么?3.为什么逻辑回归需要归一化?4.对于逻辑回归,连续特征离散化的作用是什么?5.逻辑回归能否解决非线性的分类问题?二、决策树1.决策树的算法(ID3,C4.5,CART)总结1.1 ID3—信息增益1.2 C4.5—信息增益...
机器学习之数据预处理
一.标准化 二.归一化 三.二值化 四.独热编码与标签编码 一.标准化 1.什么是标准化? 标准化指的是将数据按比例缩放,使之落入一个小的特定区间。在大多数情况下,这个区间是[0, 1],但有时也可以是[-1, 1]。标准化后的数据的平均值为0,标准差为1。 标准化通常使用以下公式进行:...
百面机器学习—模型基础知识
文章目录 引言一、间隔与支持向量1.什么是线性可分?2.什么是超平面?什么是最大间隔超平面?3.什么是支撑向量?最优化问题二、对偶问题1.约束条件下的目标函数如何求解最优化问题?2. 怎么理解对偶问题?3.什么是对偶问题?约束条件5.求解硬间隔SVM最优化问题推导三、软间隔1.软间隔的提出是...
百面机器学习—要点总结
文章目录 引言1.硬间隔SVM公式推导2.为什么要将求解 SVM 的原始问题转换为其对偶问题?3.为什么 SVM 要引入核函数?4.为什么 SVM 对缺失数据敏感?4.1 哪些模型对缺失数据不那么敏感?5.怎么使用 SVM 中的核函数? 的优缺点是什么?7.在空间上线性可分的两类点,分别向S...
百面机器学习—与LDA要点总结
文章目录 一、分析PCA与LDA的各自特点1.从求解方法来看2. 从目标来看3. 从结果来看4. 从应用角度来看二、分析PCA降维的一些优缺点 插眼: 百面机器学习—1.特征工程百面机器学习—2. 特征工程与模型评估要点总结百面机器学习—3.逻辑回归与决策树要点总结百面机器学习—模型基础知...
百面机器学习—均值算法、EM算法与高斯混合模型要点总结
文章目录 一、总结K均值算法步骤二、如何合理选择K值?三、K均值算法的优缺点是什么?四、如何对K均值算法进行调优?五、EM算法解决什么问题?六、EM算法流程是什么?六、EM算法能保证收敛嘛?如果收敛能收敛到全局最大值嘛?七、EM为什么不用牛顿法或者梯度下降?八、高斯混合模型GMM的核心思想是...
百面机器学习—8.概率图模型之HMM模型
文章目录 一、一些概念1.什么是概率模型?2.什么是概率图模型?3.生成模型与判别模型的区别4.常见的概率图模型中哪些是生成模型,哪些是判别模型?二、HMM—隐马尔可夫模型1.什么是马尔科夫链?2.什么是隐马尔可夫模型?的两个基本假设4.确定HMM的两组空间与三个参数的三个基本问题5.1 概...
百面机器学习—9.前馈神经网络面试问题总结
文章目录 1.画出在二元输入的情况下,表示异或逻辑的网络图2.写出Sigmoid,tanh,relu的激活函数及对应导数3.为什么Sigmoid和tanh函数会导致梯度消失?系列的激活函数相对于Sigmoid和Tanh函数的优点是什么,有什么局限性?如何改进?5. 为什么引入非线性激励函数?...
百面机器学习—10.循环神经网络面试问题总结
文章目录 1.传统方法、卷积神经网络、循环神经网络是如何进行文本分类任务的?2.为什么RNN会出现梯度消失或梯度爆炸,有哪些改进方案?2.1 为什么RNN会出现梯度消失或梯度爆炸?2.2 梯度爆炸问题的改进方案2.3 梯度消失问题的改进方案3. 循环神经网络中能否使用ReLU作为激活函数?中...
百面机器学习—11.集成学习(GBDT、XGBoost)面试问题总结
文章目录 1. 大小为N的样本集进行有放回抽样,样本N次有重复抽取被选中的概率是多少?2.集成学习分为哪几种?它们有何异同?3. 为什么很多集成学习模型都选择决策树作为基分类器?4.什么是偏差与方差?如何从减小方差和偏差的角度解释Boosting和Bagging的原理?4.1 什么是偏差与方...
百面机器学习—12.优化算法
文章目录 引言一、损失函数1.回归问题损失函数1.1 均方误差—MSE(L2损失)1.2 均方根误差—RMSE1.3 平均绝对值误差—MAE(L1损失)1.4 Huber损失函数—平滑的平均绝对误差1.5 Log-Cosh损失1.6 分位数损失函数2. 分类问题中的损失函数2.1 对数损失函...
机器学习—关联规则分析之Apriori算法及其python实现
文章目录 引言一、一些概念1.关联规则的一般形式2.最小支持度和最小置信度3.项集4.支持度计数二、Apriori算法:使用候选产生频繁项集的性质算法实现过程算法实现过程实例三、Apriori算法—python实现四、Apriori算法实现—有剪枝步五、封装好的apriori算法的调用 第...
量子机器学习:颠覆性的前沿技术
个人主页:chian-ocean 文章专栏 深入探讨量子机器学习 量子计算与机器学习是当代计算科学最激动人心的两个领域。量子计算利用量子力学的基本原理实现了计算能力的极大扩展,而机器学习已成为数据驱动的智能决策领域的基石。将这两者结合起来,量子机器学习(Quantum Machine Learnin...
机器学习过程记录(二)之线性回归、梯度下降算法
目录 什么是线性回归? 1. 线性回归的概念引入 2.线性回归与Excel 3. 线性回归的算法 3.1 梯度下降法 3.2 模型分析 3.3 损失函数(lost function) 4. 开发算法,让程序计算出m和b(y=mx+b) 4.1 简化模型 4.2 代码实现没那么容易 4.3 引入新的...
[机器学习-2]梯度下降法及实现(python)
[机器学习-2]梯度下降法及实现(python) 样例(Example)利普西斯连续(L-continuity)利普西斯光滑(L-smoothness)凸集(Convex Set)凸函数(Convex Function)强凸(Strong Convexity)方向导数泰勒展开局部与全局最优解...
只需十四步:从零开始掌握 Python 机器学习(附资源)
分享一篇来自机器之心的文章。关于机器学习的起步,讲的还是很清楚的。原文链接在:只需十四步:从零开始掌握Python机器学习(附资源)Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0 到 1...
只需十四步:从零开始掌握Python机器学习(附资源)
转载:只需十四步:从零开始掌握Python机器学习(附资源)Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0 到 1 掌握 Python 机器学习,至于后面再从 1 到 100 变成机器学...
python数据分析&挖掘,机器学习环境配置
目录一.什么是数据分析1.这里引用网上的定义:2.数据分析发展与组成3.特点二.python数据分析环境及各类常用分析包配置1.处理的数据类型2.为什么选择python三.python数据分析环境安装1.Ipython2.Jupyter3.Anaconda安装器4.Jupyter与集成开发环境与文本...