1、模型
2、数据集
数据集可划分为“训练集”和“测试集”,分别在机器学习的“训练阶段”和“预测输出阶段”起作用。
3、样本&特征
样本指的是数据集中的数据,一条数据被称为“一个样本”,通常情况下,样本会包含多个特征值用来描述数据。
4、向量
向量也称欧几里得向量、几何向量、矢量,指具有大小和方向的量。与向量对应的量叫做数量(物理学中称标量),数量只有大小,没有方向。
5、矩阵
把矩阵看成由向量组成的二维数组,数据集就是以二维矩阵的形式存储数据的。
6、假设函数
可表述为y=f(x)
其中 x 表示输入数据,而 y 表示输出的预测结果,而这个结果需要不断的优化才会达到预期的结果,否则会与实际值偏差较大。
7、损失函数
又叫目标函数,简写为 L(x),这里的 x 是假设函数得出的预测结果“y”,如果 L(x) 的返回值越大就表示预测结果与实际偏差越大,越小则证明预测值越来越“逼近”真实值,这才是机器学习最终的目的。因此损失函数就像一个度量尺,让你知道“假设函数”预测结果的优劣,从而做出相应的优化策略。
8、优化方法
为了解决这一问题,数学家们早就给出了相应的解决方案,比如梯度下降、牛顿方与拟牛顿法、共轭梯度法等等。
9、拟合
就是把平面坐标系中一系列散落的点,用一条光滑的曲线连接起来,因此拟合也被称为“曲线拟合”。拟合的曲线一般用函数进行表示,但是由于拟合曲线会存在许多种连接方式,因此就会出现多种拟合函数。
10、过拟合
模型的泛化能力较差,也就是过拟合的模型在训练样本中表现优越,但是在验证数据以及测试数据集中表现不佳。
11、欠拟合
指的是“曲线”不能很好的“拟合”数据。在训练和测试阶段,欠拟合模型表现均较差,无法输出理想的预测结果。