R2决定系数(Coefficient of Determination)是一种用于评估回归模型拟合优度的指标。它表示模型能够解释数据方差的比例,通常用于比较不同模型的表现。
假设有n个样本,真实值分别为y₁, y₂, ……, yₙ,预测值分别为ŷ₁, ŷ₂, ……, ŷₙ。首先,我们可以定义总方差(Total Sum of Squares,TSS)为真实值y的方差,即:
TSS = Σ(yᵢ - ȳ)² / n,(i=1,2,…,n)
其中,ȳ为所有真实值的平均数。
我们希望得到模型的解释方差,即预测值能够解释的数据方差。因此,我们可以定义残差平方和(Residual Sum of Squares,RSS)为:
RSS = Σ(yᵢ - ŷᵢ)² / n,(i=1,2,…,n)
其中,yᵢ - ŷᵢ为第i个样本的残差,表示预测值与真实值之间的差。
最后,我们可以计算R2决定系数为解释方差占总方差的比例,即:
R² = 1 - (RSS / TSS)
R2决定系数的取值范围为[0,1],当R2为1时,表示模型完美预测了数据;当R2为0时,表示模型无法解释数据方差。在实际应用中,R2决定系数通常用于比较不同模型的表现,取值越接近1,表示模型解释的数据方差越多,表现越好