R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化

在房地产市场中，准确地预测房屋价格是至关重要的。过去几十年来，随着数据科学和机器学习的快速发展，各种预测模型被广泛应用于房屋价格预测中。而R语言作为一种强大的数据分析和统计建模工具，被越来越多的研究者和从业者选择用于房屋价格预测。

本文将介绍帮助客户使用R语言软件进行房屋价格预测的几种常见方法，包括回归、LASSO、决策树、随机森林、GBM、神经网络和支持向量机(SVM)。通过这些方法的比较和分析，我们将探讨它们在房屋价格预测中的优势和不足，并通过可视化的方式展示它们的预测结果。

首先读取数据

data=read.csv("AmesHousing.csv")

查看原始数据（直接从Ames评估办公室获得）用于税务评估目的，但本身直接预测房屋售价。

首先查看部分数据，以观看数据中有哪些变量

head(data)

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林

获取数据的基本统计量

summary(data)

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_02

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_03

对房屋面积进行可视化，可以让我们对房屋的面积有一个直观的影响，从而也可以排除掉一部分异常点的影响

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_拟合_04

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_数据_05

从可视化结果来看，可以发现数据中存在较多的异常数据。可能会影响后续的预测过程，因此将他们去除

查看数据结构

通过查看数据结构，我们可以了解到，哪些数据是数值变量比如房屋面积，总体质量建立年份，哪些数据是因此变量比如街道，土地坡度，房屋状况，哪些数据的因子有哪些

str(data)

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_数据_06

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_07

绘制相关散点图

通过绘制相关散点图，我们可以查看数值变量之间存在哪些关系？

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_数据_08

看变量之间的相关系数，我们可以找到相关性高的变量

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_拟合_09

从相关系数和散点图来看，我们可以看到，房屋价格和房屋的总体质量，建立年份，房屋面积，房屋层高等变量存在相关关系。

然后我们察看数据中是否存在共线性问题

kappa(corr, exact = T)

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_拟合_10

查看变量之间的boxplot图

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_11

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_数据_12

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_拟合_13

正如我们从不同变量之间的箱线图和上面的房屋销售价格中看到的，高销售价格的房屋有更多的卧室、浴室和车库。

正如我们从房屋售价和质量之间的箱线图上看到的，高售价房屋的质量更高。

提取训练集,测试集

indices = sample(nrow(data), nrow(data)*0.7)

回归模型 linear regression

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_14

从回归模型的结果来看，我们可以看到部分变量是显著的，说明他们对房屋的价格，有很大的影响。显著的变量有车库面积，走廊，浴池，总体质量，房屋层高等等。从R方的结果来看，R方等于93%，因此，模型解释了房屋价格大部分的方差，可以说模型的拟合效果非常良好

残差表现来看模型的拟合好坏

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_拟合_15

左上方的图是一个散点图，用于表示拟合值和残差的关系。从图中可以看到，除了第二个异常值外，其余所有点都在纵坐标值-1和+1之间随机分布。

接下来的图是一个散点图，表示拟合值的标准化偏差和残差的关系，其意义与上述相似。右上方的图显示随机误差项服从正态分布，这是因为正态QQ图可以近似视为一条直线。

右下方的图进一步证实了第二个观察值是一个异常值，它对回归方程的影响相对较大。

lasso 模型

在建立lasso模型之后，我们绘制误差变化图

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_数据_16

绘制系数变化图

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_拟合_17

LASSO回归复杂度调整的程度由参数λ来控制，λ越大对变量较多的线性模型的惩罚力度就越大，从而最终获得一个变量较少的模型。因此误差最小的点对应选取log(lamda)=9为最优模型。

regression trees 回归树模型

拟合模型

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_18

绘制决策树

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_19

从结果来看，房屋的价格主要受到总体质量，走廊，房屋层高，车库等因素影响

一般来说，车库面积越大，总体质量越高，层高越高，那么价格就越高

然后通过得到的决策树模型进行预测得到误差

random forests 随机森林模型

模型结果

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_拟合_20

从随机森林模型的结果来看，一共生成了五百个随机树，房屋价格的方差被解释了76.75%

得到变量，重要性结果

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_21

从结果来看，可以得到和决策树类似的结论，可以看到，房屋建立的年份，以及车库面积房屋层高等因素对房屋的价格都有重要的影响。

对变量的重要性进行可视化

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_数据_22

在得到模型之后，对测试集进行预测，并且得到误差

GBM模型

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_23

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_24

从模型结果来看，可以得到和决策树随机森林类似的结果。上面是相对重要性变量的图，可以看到建立年份，车库面积，房屋层高对房屋的价格有重要的影响

neural network 神经网络

建立神经网络模型

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_数据_25

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_拟合_26

从结果来看，得到一个三层的神经网络以及641个神经元，得到的结果已经完全converged。因此模型拟合较好，所以对测试集进行预测，并且得到误差结果

SVM模型

用svm建立分类模型

使用回归核函数数据进行支持，向量机建模

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_27

从结果来看，可以得到它的最优参数以及支持向量的个数124个。在得到模型结果后，对测试集进行预测，并且得到误差结果

总结评估

在对数据进行六个模型建模后，分别得到了每个模型的误差结果，然后我们将所有的误差结果进行汇总，并且比较每个模型的优劣。

测试误差：随机森林最小，回归次之，其他模型较大。准确度：随机森林最优，但训练复杂。效率：回归模型较高。解释度：决策树模型可解释，神经网络不可解释。其他模型需提高准确度。综上，推荐随机森林预测房屋价格。

R语言软件对房屋价格预测：回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化_随机森林_28

秒客网