机器学习|环境搭建、入门基础等

时间:2020-12-03 20:02:45

本篇学习笔记总结自唐宇迪老师的《【决胜AI系列】机器学习&深度学习系统实战》。

1.环境搭建——Anaconda在手,python我有

Anaconda是个什么鬼?以下是官网上给出的介绍:

它是一个用于科学计算的python发行版,提供了包管理与环境管理功能。Anaconda = python安装器+上百个库。这些库包括NumPy, Pandas, SciPy, Matplotlib等,完全满足正常使用所需。它还支持很多库的一键安装,只需要输入“canda install package-name”就可以了。所以,安装一个anaconda,就相当于安装了python和各种常用的库。

对于初学者,建议安装个anaconda,相当于单反相机的自动挡,环境、库一键给你配置好。自己下载python、安装各种库相当于单反的手动挡,适合高端玩家。总之Anaconda在手,天下我有。各版本下载地址,总有一款适合你

并且,conda将python和各种工具全部当作包来对待,因此可以随意切换版本,具体参考这篇文章

其中anaconda Prompt是一个类似于cmd的环境,可以输入命令行。Jupyter Notebook打开后,会在浏览器上出现一个界面,在这里,可以将代码分步骤编写并运行,并且,notebook在进行数据预处理、可视化时,非常方便。

2.机器学习的一般步骤

1.训练样本。

机器学习目前还是依赖现有数据,对未知数据进行预测,因此训练样本是基础。例如房价的数据。

2.特征提取。

将样本转化为计算机可识别的数据,需要将对数据有重要影响的因素抽象出来。例如房子的面积、房间数量。

3.学习函数。

即对提取的特征进行建模。

4.预测与修正。


机器学习|环境搭建、入门基础等

3.机器学习用到的库

Numpy:科学计算库。

Pandas:数据分析处理库。

Matplotlib:数据可视化。

Scikit-learn:非常重要的一个库,机器学习库。

4.线性回归算法原理

关于回归问题、梯度下降法的介绍,以及最小二乘法的推导,在之前的文章中都有介绍,思路都是一样的。

5.numpy库简介

这里介绍几个经常使用的,详细使用网络有很多教程,不再赘述。

numpy.array([……])

创建数组

XXX.shape

展示维度,查看有无异常。

XXX.dtype

查看数组类型