第一周 总结笔记 / 斯坦福-Machine Learning-Andrew Ng

时间:2023-03-08 18:16:00
第一周  总结笔记 / 斯坦福-Machine Learning-Andrew Ng

课程主页:https://www.coursera.org/learn/machine-learning/home/welcome

收集再多的资料也没用,关键是要自己理解总结,做笔记就是一个归纳总结的过程,把自己理解的核心逻辑记录下来,供以后回顾。

千万不要把一些自己没理解归纳的材料摘抄下来当做笔记,这样你等于没学,下次看笔记还是陌生的,这样的笔记毫无意义。

第一周完整字幕:http://www.cnblogs.com/leezx/p/5619914.html


这个课程是好,非常有必要全部学完,总共11周:

第 1 周 :Introduction  简介 / Linear Regression with One Variable  单变量线性回归 / Linear Algebra Review  线性代数复习

第 2 周 :Linear Regression with Multiple Variables  多变量线性回归 / Octave/Matlab Tutorial

第 3 周 :Logistic Regression  逻辑回归 / Regularization 正则化

第 4 周 :Neural Networks: Representation 神经网络表示

第 5 周 :Neural Networks: Learning 神经网络学习

第 6 周 :Advice for Applying Machine Learning / Machine Learning System Design 机器学习系统设计

第 7 周 :Support Vector Machines 支持向量机

第 8 周 :Unsupervised Learning 无监督学习 / Dimensionality Reduction 降维

第 9 周 :Anomaly Detection 异常检测 / Recommender Systems 推荐系统

第 10 周 :Large Scale Machine Learning 大规模机器学习

第 11 周 :Application Example: Photo OCR 应用实例


review questions必须要做,加深理解!

学完课程后可以做的事:anti-spam反垃圾邮件, image recognition, clustering, building recommender systems

不仅学习各种机器学习算法,而且,You'll also know how to select the right algorithm for the right job(针对具体问题选择合适的算法), as well as become expert at 'debugging' and figuring out how to improve a learning algorithm's performance(如何提高算法的性能).


正式进入第一周…

引言

第一周就介绍了机器学习的核心范式,从最简单的单变量线性回归模型开始,介绍cost function 和 gradient descent method,线性代数的基础是必要的,矩阵、特征值、特征向量、方阵、行列式,线性变换等等。

虽然你暂时不会应用机器学习,但可以了解它在目前有哪些最前沿的应用:搜索引擎网页排序,图像识别,垃圾邮件过滤,机器人,AI,

学习机器学习的算法不是最重要的,最重要的是知道怎么用?哪个问题可以用哪个模型?

为什么要用机器学习?因为有些问题是不能用直接的编程解决的,如垃圾邮件过滤、网页排序,唯一的解决办法就是让机器自己学习。

机器学习的一个应用领域就是数据挖掘:目前人们已经积累了海量数据,而数据里面必然蕴含着某种模式或规律,如网页点击信息、医疗记录、生物学信息、工程信息等的数据挖掘。

机器学习可以解决显性编程解决不了的问题:如让直升机自主飞行,手写识别,自然语言处理、图像识别

小结:机器学习可以从数据中学习出知识,而直接编程是不可行的。

小知识:机器学习定义一:the field of study that gives computers the ability to learn without being explicitly programmed. 机器学习定义二:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E. 比如玩跳棋

论坛很有用哦:https://www.coursera.org/learn/machine-learning/discussions

监督学习

以房价预测为例,根据房屋面积来预测房价,已经有一系列数据,我们需要建立回归模型(拟合函数),二维就是线,三维就是面,多维就是超平面(无法想象,但可以计算)。可以用不同的模型拟合,直线、曲线。

监督学习定义:包含分类和回归,数据是被标注的,有明确的预测目标

如何从回归问题引申到分类问题?如何可视化研究?一维、二维、多维特征值,二维以上就无法想象了,只能计算。

无监督学习

定义:数据没有被标注,都是一样的,如聚类,谷歌新闻就是典型的聚类,基因芯片将个体聚类,组织集群、社交聚类、市场划分、天文数据

音频分离:非聚类,不同的声音,不同的麦克风(声音大小不同),可以将其分离出来。只需要一行代码,SVD,octave,奇异值分解,

先用octave验证算法可行,然后再用C、C++、Java提升效率,而不是一开始就用底层的语言。