1.监督学习(已知的数据集都是有明确的标签的):分类、预测
2.无监督学习(已知的数据集没有明确的标签,关注的是数据的类型结构):聚类算法、组织计算机集群、社交网络分析、市场分割、天文数据分析
3.Octave软件的使用
4.a:=b 赋值 a=b断言的判断(视频提示)
5.
代表的是学习率,也就是在梯度下降的时候,“迈出的步子”的大小
如果学习速率设置得太小,那么梯度的下降就会变得很慢
如果学习速率设置得太大,那么梯度的下降就会越过最小的值的点,可能会出现不收敛或者发散的情况。
6.不存在逆矩阵的矩阵被称为奇异矩阵或者是退化矩阵。
7.特征缩放:更直接的路径通向全局最小、让这些特征值都在一个相似的范围内进行变化、不同特征值的变化范围只要比较接近就可以了,并不需要严格意义上的一模一样
8.均值归一化:将特征量减去对应的均值
9.学习率的选择:绘制出损失函数-迭代次数的图像
如果出现损失函数值随着迭代次数的不断增加而不断增加,那么很有可能学习速率的值选择过大
如果损失函数的值出现周期性的先增加后减少再增加再减少,那么我们也应该选择一个较小的学习速率的值
10.梯度下降算法的缺点:需要去选择学习速率、需要更多次的迭代(这些也是正规方程方法的优点)
11.梯度下降算法的优点:在特征很多的情况下依然能够很好地工作
正规方程方法的缺点:矩阵逆地求解会很费时(n>=10000)
正规方程求解的时候出现的不可逆的原因:冗余的特征(线性相关的)、特征太多
12.Octave:length(A)返回的是A中最大的维度的大小;size(A,i)返回的是A的第i维度的大小(i从1开始);A([1,3],:)得到的是A的第一行以及第二行所组成的结果;load的操作读取结果;save操作存储结果;cd操作改变当前运行的路径;A=A[A,[1;2;3]]在A的右边新添一列向量(注意维数需要对应);A(:)将A的所有元素都放置到一个单一的向量当中;C=[A B]或者C=[A,B]将矩阵A和B横向拼接;C=[A;B]将矩阵A和B纵向拼接;A.*B将A中的元素与B当中的每个对应元素相乘;. 一般表示的是进行逐个元素的操作;flipup使矩阵垂直翻转;addpath添加相应的搜索路径;
13.logistic回归:算法的输出值都在0和1之间;对于特定的输入x,y对应的值为1的概率
14.logistic回归和线性回归是不一样的,虽然二者在梯度下降的表达式上一样,但是对于损失函数的定义是有区别的
15.欠拟合:高偏差
过拟合:高方差(特征太多)
泛化能力:模型运用到新的数据样本中的能力
减少过渡拟合:减少特征量的总数、应用模型选择算法、利用正则化的方法(减少参数的量级以及值的大小,这样可以保证每个变量或多或少都对预测值产生一定的影响)
16.正则化的思想:约束使某些参数的值较小
17.神经网络:输入层、隐藏层、输出层
反向传播算法、检验(双侧差分判断,计算耗时,结束之后需要关闭,避免反复运行)
神经网络当中默认只有一层隐藏层,如果有超出一层的隐藏层,那么默认这些隐藏层的神经网络中的神经元的个数都是相等的