多项式回归是线性回归的一种形式,其中自变量 x 和因变量 y 之间的关系被建模为 n 次多项式。多项式回归拟合 x 的值与 y 的相应条件平均值之间的非线性关系,表示为 E(y | x)。
什么是多项式回归?
- 研究人员会假设一些关系是曲线关系。显然,这种类型的情况将包括一个多项式项。
- 残差检查。如果我们尝试将线性模型拟合到弯曲数据,则预测变量(X 轴)上的残差散点图(Y 轴)将在中间包含许多正残差的补丁。因此,在这种情况下,这是不合适的。
- 通常的多元线性回归分析中的一个假设是所有自变量都是独立的。在多项式回归模型中,不满足此假设。
为什么选择多项式回归?
多项式回归是统计和机器学习中使用的一种回归分析,当自变量(输入)和因变量(输出)之间的关系不是线性的时。简单线性回归将关系建模为直线,而多项式回归通过对数据拟合多项式方程来提供更大的灵活性。
当变量之间的关系更好地用曲线而不是直线表示时,多项式回归可以捕获数据中的非线性模式。
多项式回归如何工作?
如果我们仔细观察,那么我们将意识到从线性回归演变为多项式回归。我们只需要在特征空间中添加依赖特征的高阶项。这有时也称为特征工程,但并不完全是。
当关系是非线性的时,多项式回归模型会引入更高阶的多项式项。
n 次多项式回归方程的一般形式为:
y 是因变量。
- x 是自变量。
- 是多项式项的系数。
- n 是多项式的次数。
- 表示错误项。
回归分析的基本目标是根据自变量 x 的值对因变量 y 的期望值进行建模。在简单的线性回归中,我们使用了以下等式——
y = a + bx + e
其中 y 是因变量,a 是 y 截距,b 是斜率,e 是错误率。在许多情况下,这种线性模型是行不通的:例如,如果我们根据合成发生的温度来分析化学合成的产生,在这种情况下,我们使用二次模型。
这里
- y 是 x 的因变量
- a 是 y 截距,e 是错误率。
通常,我们可以为第 n 个值建模。
由于回归函数在未知变量方面是线性的,因此这些模型从估计的角度来看是线性的。
使用 Python 的多项式回归实现
要获取用于分析多项式回归的数据集,请单击此处。导入重要的库和我们用于执行多项式回归的数据集。
Python 库使我们能够非常轻松地处理数据并使用一行代码执行典型和复杂的任务。
- pandas – 该库有助于以 2D 数组格式加载数据帧,并具有多种功能可以一次性执行分析任务。
- Numpy – Numpy 数组速度非常快,可以在很短的时间内执行大型计算。
- Matplotlib/Seaborn – 此库用于绘制可视化。
- Sklearn – 此模块包含多个库,这些库具有预先实现的功能,用于执行从数据预处理到模型开发和评估的任务。
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# Importing the dataset
datas = pd.read_csv('data.csv')
datas
输出:
现在让我们在手头的数据上拟合一个线性回归模型。
# Features and the target variables
X = datas.iloc[:, 1:2].values
y = datas.iloc[:, 2].values
# Fitting Linear Regression to the dataset
from sklearn.linear_model import LinearRegression
lin = LinearRegression()
lin.fit(X, y)
在两个分量 X 和 Y 上拟合多项式回归模型。
# Fitting Polynomial Regression to the dataset
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=4)
X_poly = poly.fit_transform(X)
poly.fit(X_poly, y)
lin2 = LinearRegression()
lin2.fit(X_poly, y)
在此步骤中,我们将使用散点图可视化线性回归结果。
# Visualising the Linear Regression results
plt.scatter(X, y, color='blue')
plt.plot(X, lin.predict(X), color='red')
plt.title('Linear Regression')
plt.xlabel('Temperature')
plt.ylabel('Pressure')
plt.show()
使用散点图可视化多项式回归结果。
# Visualising the Polynomial Regression results
plt.scatter(X, y, color='blue')
plt.plot(X, lin2.predict(poly.fit_transform(X)),
color='red')
plt.title('Polynomial Regression')
plt.xlabel('Temperature')
plt.ylabel('Pressure')
plt.show()