写在前面
随机梯度下降法就在随机梯度上。意思就是说当我们在初始点时想找到下一点的梯度,这个点是随机的。全批量梯度下降是从一个点接着一点是有顺序的,全部数据点都要求梯度且有顺序。
全批量梯度下降虽然稳定,但速度较慢;
SGD虽然快,但是不够稳定
随机梯度下降法
随机梯度下降法(Stochastic Gradient Decent,
SGD)是对全批量梯度下降法计算效率的改进算法。本质上来说,我们预期随机梯度下降法得到的结果和全批量梯度下降法相接近;SGD的优势是更快地计算梯度。
代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
|
'''
随机梯度下降法(Stochastic Gradient Decent, SGD)
是对全批量梯度下降法计算效率的改进算法。本
质上来说,我们预期随机梯度下降法得到的结果和全批量梯度下降法相接近;
SGD的优势是更快地计算梯度。
'''
import pandas as pd
import numpy as np
import os
os.getcwd()
# F:\\pythonProject3\\data\\data\\train.csv
# dataset_path = '..'
# 这是一个全批量梯度下降(full-batch gradient descent)的应用。
# 这个问题是一个回归问题
# 我们给出美国某大型问答社区从2010年10月1日到2016年11月30日,
# 每天新增的问题的个数和回答的个数。
# 任务是预测2016年12月1日到2017年5月1日,该问答网站每天新增的问题数和回答数。
train = pd.read_csv( '..\\train.csv' )
# 导入数据
# train = pd.read_csv('train.csv')
test = pd.read_csv( '..\\test.csv' )
submit = pd.read_csv( '..\\sample_submit.csv' )
path1 = os.path.abspath( '.' )
print ( "path1@@@@@" ,path1)
path2 = os.path.abspath( '..' )
print ( "path2@@@@@" ,path2)
print (train)
# 初始设置
beta = [ 1 , 1 ] #初始点
alpha = 0.2 #学习率,也就是步长
tol_L = 0.1 #阈值,也就是精度
# 对x进行归一化,train 是训练数据的二维表格
max_x = max (train[ 'id' ]) #max_x是总共的id数
x = train[ 'id' ] / max_x #所有的id都除于max_x
y = train[ 'questions' ] # train二维表格中的questions列赋给y
type (train[ 'id' ])
print ( "train['id']#######\n" ,train[ 'id' ])
print ( "type(train['id'])###\n\n" ,x)
print ( "max_x#######" ,max_x)
#为了计算方向
def compute_grad_SGD(beta, x, y):
'''
:param beta: 是初始点
:param x: 是自变量
:param y: 是真是值
:return: 梯度数组
'''
grad = [ 0 , 0 ]
r = np.random.randint( 0 , len (x)) #在0-len(x)之间随机生成一个数
grad[ 0 ] = 2. * np.mean(beta[ 0 ] + beta[ 1 ] * x[r] - y[r]) #求beta[1,1],中第1个数的梯度
grad[ 1 ] = 2. * np.mean(x * (beta[ 0 ] + beta[ 1 ] * x - y)) #求beta[1,1],中第2个数的梯度
return np.array(grad)
#为了计算下一个点在哪,
def update_beta(beta, alpha, grad):
'''
:param beta: 第一点,初始点
:param alpha: 学习率,也就时步长
:param grad: 梯度
:return:
'''
new_beta = np.array(beta) - alpha * grad
return new_beta
# 定义计算RMSE的函数
# 均方根误差(RMSE)
def rmse(beta, x, y):
squared_err = (beta[ 0 ] + beta[ 1 ] * x - y) * * 2 # beta[0] + beta[1] * x是预测值,y是真实值,
res = np.sqrt(np.mean(squared_err))
return res
# 进行第一次计算
grad = compute_grad_SGD(beta, x, y) #调用计算梯度函数,计算梯度
loss = rmse(beta, x, y) #调用损失函数,计算损失
beta = update_beta(beta, alpha, grad) #更新下一点
loss_new = rmse(beta, x, y) #调用损失函数,计算下一个损失
# 开始迭代
i = 1
while np. abs (loss_new - loss) > tol_L:
beta = update_beta(beta, alpha, grad)
grad = compute_grad_SGD(beta, x, y)
if i % 100 = = 0 :
loss = loss_new
loss_new = rmse(beta, x, y)
print ( 'Round %s Diff RMSE %s' % (i, abs (loss_new - loss)))
i + = 1
print ( 'Coef: %s \nIntercept %s' % (beta[ 1 ], beta[ 0 ]))
res = rmse(beta, x, y)
print ( 'Our RMSE: %s' % res)
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(train[[ 'id' ]], train[[ 'questions' ]])
print ( 'Sklearn Coef: %s' % lr.coef_[ 0 ][ 0 ])
print ( 'Sklearn Coef: %s' % lr.intercept_[ 0 ])
res = rmse([ 936.051219649 , 2.19487084 ], train[ 'id' ], y)
print ( 'Sklearn RMSE: %s' % res)
|
参考文献
原文链接:https://blog.csdn.net/weixin_43755104/article/details/121303527?spm=1001.2014.3001.5501