提要:
1.机器学习出现的原因:海量数据,硬件,接地气
2.机器学习分类
data:机器学习分为监督学习(有标签),无监督学习(无标签),强化学习(环境封闭,从环境奖惩中学习,eg.玩游戏,alphago棋盘)
question:分类(标签离散,逻辑回归,决策树,神经网络)回归(标签连续,线性回归,神经网络),聚类 ,关联规则(找特征之间的关系),时间序列,结构化输出(输出结构),生成式学习,决策性问题
3.深度学习与普通机器学习的区别:无需人工手动特征提取,自动实现非结构化数据的结构化,减少特征工程,解决特征提取与分类任务(eg.识别“8”)
4.机器学习框架:Scikit-leam(sklearn)
5.深度学习框架:TensorFlow,Keras(最简单),Pytorch
附:一个简单的房价线性回归预测模型
1.数据读取和特征标签区分
import pandas as pd #pandas用于数据读取和处理
df_housing=pd.read_csv("./")
df_housing.head #数据框的head信息
X=df_housing.drop("median_house_value",axis=1)
#drop函数默认删除行,列需要加axis = 1
y=df_housing.median_house_value
2.线性回归模型
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#random_state相当于随机种子数
#线性回归模型
from sklearn.linear_model import LinearRegression
model=LinearRegression()
(X_train,y_train)
y_predict=(X_test)
print("给预测评分:",(X_test,y_test))
coef=model.coef_
import numpy as np
row,col=(coef==max(coef))#相关性最强所对应特征
#预测评分为R^2
3.画图
#画图
import as plt
(X_test.median_income,y_test,color='brown')
(X_test.median_income,y_predict,color='green')
('s')
('g')
()