目录(?)[+]

======================================================================
本系列博客主要参考 Scikit-Learn 官方网站上的每一个算法进行，并进行部分翻译，如有错误，请大家指正

======================================================================

另外一篇基于《机器学习实战》的Logistic回归分析的博客请参考：点击阅读，其主要是采用Python代码实现回归模型

还有一篇是纯实战案例博客请参考，Logistic回归模型案例实战：《机器学习实战》Logistic回归算法（2）

1、概念

2、简单线性回归（Simple Liner Regession）

3、多元性回归（Mutiple Regession）

4、非线性回归（Logistic Regession）

一：概念

1：集中趋势衡量

1.1均值（平均值，平均数）（mean）

1.2中位数（median）：将数据中的所有数按大小排列顺序，位于中间的拿个书就是中位数

个数为奇数，取中间值

个数为偶数，取中间两个数的平均值

1.3众数：数据中出现最多的数

2：离散程度的衡量

2.1方差（variance）

2.2标准差（standard deviation）

3：回归中的相关度

3.1：皮尔逊相关度

衡量两个相关强度的量，取值范围是[-1,1]，计算公式为：

4：R平方值

决定系数（可决系数，拟合优度），反应因变量的全部变异能通过回归关系被自变量解释的比例，取值范围[0,1]，可决系数越大，说明在总变差中由模型作出了解释的部分占的比重越大，模型拟合优度越好。反之可决系数小，说明模型对样本观测值的拟合程度越差。

描述：如R平方为0.8，则表示回归关系可以解释因变量80%的变异，换句话说，如果我们能控制自变量不变，则因变量变异程度将会减少80%

对于简单线性回归来说，R^2= r * r

对于多元线性回归来说，

SSR表示由模型引起的误差平方和，SST表示由实际值引起的差值平方和

R平方也有局限性，会随着自变量的增大而增大

一个关于相关系数的BBS：http://bbs.pinggu.org/thread-3034786-1-1.html

5：皮尔逊相关系数和R平方值计算示例

#coding:utf-8
'''''
Created on 2015年11月8日
@author: Administrator
'''
import numpy as np
import math
#求解皮尔逊相关系数
def computeCorrelation(X, Y):
xBar = np.mean(X)
yBar = np.mean(Y)
SSR = 0
varX = 0
varY = 0
for i in range(0, len(X)):
#对应分子部分
diffXXBar = X[i] - xBar
diffYYBar = Y[i] - yBar
SSR +=(diffXXBar * diffYYBar)
#对应分母求和部分
varX += diffXXBar**2
varY += diffYYBar**2
SST = math.sqrt(varX * varY)
return SSR/SST
def polyfit(x, y, degree):
results = {}
#coeffs 为相关系数，x自变量，y因变量，degree为最高幂
coeffs = np.polyfit(x, y, degree)
#定义一个字典存放值，值为相关系数list
results['polynomial'] = coeffs.tolist()
#p相当于直线方程
p = np.poly1d(coeffs)
yhat = p(x) #传入x，计算预测值为yhat
ybar = np.sum(y)/len(y) #计算均值
#对应公式
ssreg = np.sum((yhat - ybar) ** 2)
sstot = np.sum((y - ybar) ** 2)
results['determination'] = ssreg / sstot
print" results :",results
return results
testX = [1, 3, 8, 7, 9]
testY = [10, 12, 24, 21, 34]
#输出的是简单线性回归的皮尔逊相关度和R平方值
print "r : ",computeCorrelation(testX, testY)
print "r^2 : ",str(computeCorrelation(testX, testY)**2)
#
print polyfit(testX, testY, 1)["determination"]

结果显示为：

二：简单线性回归

1：回归与分类的区别

回归（regession）：Y变量为连续型数值，如房价，人数，降雨量

分类（classification）：Y变量为类别型，如颜色类别，电脑品牌，有无信誉

2：简单线性回归介绍

回归分析：是指建立方程模拟两个或者多个变量之间如何关联

回归模型：是指被用来描述因变量（y）和自变量（x）以及偏差（error）之间的关系的方程，函数表示为：

简单线性回归方程：模型转变为转载： scikit-learn学习之回归分析

即为回归方程（类似于一条直线，参数为斜率和y轴的交点）

线性关系包含：正相关，负相关，无关

估计线性方程：

关于偏差：

3：简单线性回归示例

#coding:utf8
'''''
Created on 2016年4月24日
@author: Gamer Think
'''
#Simple Regession
import numpy as np
#周广告播放数量
x = [1,3,2,1,3]
#周汽车销售数据
y = [14,24,18,17,27]
#使用最小二乘法
def fitSLR(x,y):
n = len(x)
denominator = 0
numerator = 0
for i in range(0,n):
numerator += (x[i]-np.mean(x)* (y[i]-np.mean(y)) )
denominator += (x[i]-np.mean(x))**2
print "denominator:",denominator
print "numerator:",numerator
b1 = numerator/float(denominator)
# b0 = np.mean(y)/float(np.mean(x))
b0 = np.mean(y)-b1*np.mean(x)
return b0,b1
def predict(b0,b1,x):
return b0+b1*x
b0,b1 = fitSLR(x,y)
x_test = 6
print "y_test：",predict(b0,b1,x_test)

三：多元性回归

1：多元回归简介

与简单线性回归的区别：有多个变量x

多元回归模型：

多元回归方程：

估计多元回归方程：（y变成y_hat,即求得是估计值）

估计方法：

2：多元线性回归示例

我们需要的数据是第二，三，四列的数据

#coding:utf-8
'''''
Created on 2016年4月24日
@author: Gamer Think
'''
from sklearn import linear_model
import numpy as np
from numpy import genfromtxt #可以将非array格式的list转化为array
datapath = "data.csv"
deliverData = genfromtxt(datapath,delimiter=",") #将csv文件转化为numpy.array格式
print "data:",deliverData
X= deliverData[:,:-1]
Y = deliverData[:,-1]
print "X:",X
print "Y:",Y
regr = linear_model.LinearRegression()
regr.fit(X,Y)
print "coefficients:",regr.coef_ #与X结合的值
print "intercept:",regr.intercept_ #类似于截距
x_pre = [102,6]
y_pre = regr.predict(x_pre)
print "Y-Predict:",y_pre

3：如果自变量中有分类型变量（categorical data）,如何处理？

e g：

首先将分类型变量进行转化为如下形式（第四五六列表示0,1,2，为1表示使用该型号车）

调用的代码其实和上边的是一样的：

#coding:utf-8
'''''
Created on 2016年4月24日
@author: Gamer Think
'''
from numpy import genfromtxt
import numpy as np
from sklearn import datasets, linear_model
dataPath = "dataDumpy.csv"
deleveryData = genfromtxt(dataPath, delimiter=',')
print "data:\n",deleveryData
X = deleveryData[:, :-1]
Y = deleveryData[:, -1]
print "X: ",X
print "Y: ",Y
regr = linear_model.LinearRegression()
regr.fit(X, Y)
print "Coefficients:",regr.coef_ #与X结合的值
print "Intercept:",regr.intercept_ #类似于截距
#
xPred = [102,6,0,0,1]
yPred = regr.predict(xPred)
print "predict y : ",yPred

4：关于误差

四：非线性回归

非线性回归又称为逻辑回归

1：概率

对一件事情发生可能性的衡量，取值范围是0~1，计算方法包括，个人置信，历史数据，模拟数据

条件概率：

非线性回归实例：

#coding:utf-8
'''''
Created on 2016年4月24日
@author: Gamer Think
'''
import numpy as np
import random
'''''
梯度下降算法
参数说明：X，Y
theta:一组向量和x相乘的一组值
alpha:梯度下降时的参数，即每一步下降多少
m:实例的个数
numIteration：迭代计算的次数，可以理解为梯度下降多少步
'''
def gradientDescent(X,Y,theta,alpha,m,numIteration):
x_trains = X.transpose() #X的转置矩阵
for i in range(0,numIteration):
hypothesis = np.dot(X,theta) #内积形式，X与theta的乘积，求出y的估计值
loss = hypothesis - Y #估计值与真实值之间的差
#通用的梯度下降算法，和logistic Regession中所描述的cost函数不一致
cos = np.sum(loss**2)/(2*m)
print "Iteration %d | Cost:%f" % (i,cos)
gradient = np.dot(x_trains,loss)/m
theta = theta - alpha*gradient
return theta
'''''
numPoints : 点的个数
bias :偏好ֵ
variance : 统计学概念，偏差和
产生样本点和对应的标签
'''
def genData(numPoints,bias,variance):
X = np.zeros(shape=(numPoints,2)) #归类的数据
Y = np.zeros(shape=numPoints) #归类的标签
for i in range(0,numPoints): #从0~len(numPoints)-1执行如下
X[i][0] = 1
X[i][1] = i
#制造target数据
Y[i] = (i+bias) + random.uniform(0,1)*variance
return X,Y
X,Y = genData(100, 25, 10)
# print "X:",X
# print "Y:",Y
m, n = np.shape(X)
n_y = np.shape(Y)
# print "x shape :", m, " ", n
# print "y length :",n_y
numIterations =100000
alpha = 0.0005
theta = np.ones(n)
theta = gradientDescent(X, Y, theta, alpha, m, numIterations)
print "theta: " ,theta

点击进入个人在有道云笔记的回归分析相关，感兴趣的可以看一下

转载： scikit-learn学习之回归分析的更多相关文章

机器学习-scikit learn学习笔记
scikit-learn官网:http://scikit-learn.org/stable/ 通常情况下,一个学习问题会包含一组学习样本数据,计算机通过对样本数据的学习,尝试对未知数据进行预测. 学习 ...
Scikit Learn&colon; 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
转载-《Python学习手册》读书笔记
转载-<Python学习手册>读书笔记 http://www.cnblogs.com/wuyuegb2312/archive/2013/02/26/2910908.html
[ML学习笔记] 回归分析（Regression Analysis）
[ML学习笔记] 回归分析(Regression Analysis) 回归分析:在一系列已知自变量与因变量之间相关关系的基础上,建立变量之间的回归方程,把回归方程作为算法模型,实现对新自变量得出因变量 ...
Learning How to Learn学习笔记（转）
add by zhj: 工作中提高自己水平的最重要的一点是——快速的学习能力.这篇文章就是探讨这个问题的,掌握了快速学习能力的规律,你自然就有了快速学习能力了. 原文:Learning How to ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.

随机推荐

MySQL 使用笔记（一）关联
2016-12-16 一.当前未掌握总结: 目前MySQL中不会的内容: 1.临时表(变量表) 2.存储过程 3.游标 4.函数二.关联内联.左关联.右关联.外联 (一).标准sql语句中的关联及 ...
Eclipse 扩展点常量ID
eclipse 扩展点常量ID 列表如下: Name ID ------------------------------------------------- Category File ...
Spark实战3&colon;Maven&lowbar;Java&lowbar;HelloWorld
Spark独立开发应用( Java语言) 1 创建SimpleApp.java文件: /* SimpleApp.java */ import org.apache.spark.api.java.*; ...
python(六)面向对象
1.封装支持多重继承,但如果不需要的时候最好不要使用,避免出现不必要的bug: 2.继承 3.多态 4.构造函数 5.私有和共有在属性前写两个下滑线定义就是私有的
Exporter - 实现默认的导入方法用于模块
Exporter - 实现默认的导入方法用于模块简介: In module YourModule.pm: package YourModule; require Exporter; @ISA = q ...
UVa 340 Master-Mind Hints (优化查找&amp&semi;复制数组)
340 - Master-Mind Hints Time limit: 3.000 seconds http://uva.onlinejudge.org/index.php?option=com_on ...
自动化测试培训：qtp脚本获取获取汇率数据
poptest(www.poptest.cn)致力于测试开发工程师的培训,以培养能胜任做测试工具开发,完成自动化测试,性能测试,安全性测试等工作能力为目标.自8月份成立2个月内中针对企业在职人员的能力 ...
是程序员，就用python导出pdf
这两天一直在做课件,我个人一直不太喜欢PPT这个东西--能不用就不用,我个人特别崇尚极简风. 谁让我们是程序员呢,所以就爱上了Jupyter写课件,讲道理markdown也是个非常不错的写书格式啊. ...
工具类封装之--CommonUtils
/** * @file_name : CommonUtils.java * @author : * @date : 2018年3月15日 * Description: */ package cn.xx ...
TemplatePart特性的作用
看wp控件的源代码时发现TemplatePart特性,于是在百度上查了查: http://blog.csdn.net/wushang923/article/details/9224533 Templa ...