回归算法实例-probability and statistics for computer science 无水印原版pdf

时间:2024-07-03 00:21:59
【文件属性】:

文件名称:回归算法实例-probability and statistics for computer science 无水印原版pdf

文件大小:1.28MB

文件格式:PDF

更新时间:2024-07-03 00:21:59

hadoop spark java hive hbase

1.2 回归算法实例 1.2.1 算法说明 线性回归是利用称为线性回归方程的函数对一个或多个自变量和因变量之间关系进行建模的 一种回归分析方法,只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归, 在实际情况中大多数都是多元回归。 线性回归(Linear Regression)问题属于监督学习(Supervised Learning)范畴,又称分 类(Classification)或归纳学习(Inductive Learning)。这类分析中训练数据集中给出的数据 类型是确定的。机器学习的目标是,对于给定的一个训练数据集,通过不断的分析和学习产生一 个联系属性集合和类标集合的分类函数(Classification Function)或预测函数)Prediction Function),这个函数称为分类模型(Classification Model——或预测模型(Prediction Model)。通过学习得到的模型可以是一个决策树、规格集、贝叶斯模型或一个超平面。通过这 个模型可以对输入对象的特征向量预测或对对象的类标进行分类。 回归问题中通常使用最小二乘(Least Squares)法来迭代最优的特征中每个属性的比重,通 过损失函数(Loss Function)或错误函数(Error Function)定义来设置收敛状态,即作为梯度 下降算法的逼近参数因子。 1.2.2 实例介绍 该 例 子 给 出 了 如 何 导 入 训 练 集 数 据 , 将 其 解 析 为 带 标 签 点 的 RDD , 然 后 使 用 了 LinearRegressionWithSGD 算法来建立一个简单的线性模型来预测标签的值,最后计算了均方 差来评估预测值与实际值的吻合度。


网友评论