一、 单一变量的曲线逼近
Matlab有一个功能强大的曲线拟合工具箱 cftool ,使用方便,能实现多种类型的线性、非线性曲线拟合。下面结合我使用的 Matlab R2007b 来简单介绍如何使用这个工具箱。
假设我们要拟合的函数形式是 y=A*x*x + B*x, 且A>0,B>0 。
1、在命令行输入数据:
》x=[110.3323 148.7328 178.064 202.8258033 224.7105 244.5711 262.908 280.0447 296.204 311.5475];
》y=[5 10 15 20 25 30 35 40 45 50];
2、启动曲线拟合工具箱
》cftool
3、进入曲线拟合工具箱界面“Curve Fitting tool”
(1)点击“Data”按钮,弹出“Data”窗口;
(2)利用X data和Y data的下拉菜单读入数据x,y,可修改数据集名“Data set name”,然后点击“Create data set”按钮,退出“Data”窗口,返回工具箱界面,这时会自动画出数据集的曲线图;
(3)点击“Fitting”按钮,弹出“Fitting”窗口;
(4)点击“New fit”按钮,可修改拟合项目名称“Fit name”,通过“Data set”下拉菜单选择数据集,然后通过下拉菜单“Type of fit”选择拟合曲线的类型,工具箱提供的拟合类型有:
· Custom Equations:用户自定义的函数类型
· Exponential:指数逼近,有2种类型, a*exp(b*x) 、 a*exp(b*x) + c*exp(d*x)
· Fourier:傅立叶逼近,有7种类型,基础型是 a0 + a1*cos(x*w) + b1*sin(x*w)
· Gaussian:高斯逼近,有8种类型,基础型是 a1*exp(-((x-b1)/c1)^2)
· Interpolant:插值逼近,有4种类型,linear、nearest neighbor、cubic spline、shape-preserving
· Polynomial:多形式逼近,有9种类型,linear ~、quadratic ~、cubic ~、4-9th degree ~
· Power:幂逼近,有2种类型,a*x^b 、a*x^b + c
· Rational:有理数逼近,分子、分母共有的类型是linear ~、quadratic ~、cubic ~、4-5th degree ~;此外,分子还包括constant型
· Smoothing Spline:平滑逼近(翻译的不大恰当,不好意思)
· Sum of Sin Functions:正弦曲线逼近,有8种类型,基础型是 a1*sin(b1*x + c1)
· Weibull:只有一种,a*b*x^(b-1)*exp(-a*x^b)
选择好所需的拟合曲线类型及其子类型,并进行相关设置:
——如果是非自定义的类型,根据实际需要点击“Fit options”按钮,设置拟合算法、修改待估计参数的上下限等参数;
——如果选Custom Equations,点击“New”按钮,弹出自定义函数等式窗口,有“Linear Equations线性等式”和“General Equations构造等式”两种标签。
在本例中选Custom Equations,点击“New”按钮,选择“General Equations”标签,输入函数类型y=a*x*x + b*x,设置参数a、b的上下限,然后点击OK。
(5)类型设置完成后,点击“Apply”按钮,就可以在Results框中得到拟合结果,如下例:
同时,也会在工具箱窗口中显示拟合曲线。
这样,就完成一次曲线拟合啦,十分方便快捷。当然,如果你觉得拟合效果不好,还可以在“Fitting”窗口点击“New fit”按钮,按照步骤(4)~(5)进行一次新的拟合。
R-square 与 Adjusted R-square一个意思,通常看第一个,反映线性化拟合的好坏。
SSE 与 RMSE 是标准差 和均方差,意义也一样,反映拟合误差的好坏。
通常:SSE比R2重要,看SSE 。
R square称为方程的确定系数,0~1之间,越接近1,表明方程的变量对y的解释能力越强。
对于回归方程来说,总结了以下几个意义:
1.R square可以作为选择不同模型的标准。如果在拟合数据之前,不能确定数据到底是什么模型,那么可以对变量的不同数学形式进行拟合,然后看R square的大小,R square大的模型,说明这个模型对数据拟合的较好。
2.在数据的关系存在非线性可能情况下:
(a)不一定R square越大拟合越好,因为R square只是回归平方和占总平方和的比例。比如,在那四幅著名的图里面,R square都等于66%,并且都是线性拟合,但是他们的数据点完全不同,有些是因为特异案例的存在,致使数据拟合出来是线性的,而事实上并非如此。所以,应该在拟合之前观察散点图,然后去掉特异值。
(b)如果一个模型的R square很小,不一定代表数据之间没有关系,而很有可能是选择的模型不对,因为数据之间也许的其他的函数关系,比如对数关系或者指数关系。这意味着需要对数据作进一步的拟合。(当然,最好的方法应该是在数据拟合之前先观察散点图)。如果是线性模型,那么R square才是方程拟合优度的度量,R square越大,回归方程拟合数据越好,线性关系越强。
3.当自变量个数增加时,尽管有的自变量与y的线性关系不显著,R square也会增大。R square受自变量个数与样本规模影响。这点在上次老师上课时也从数学原理阐述过。对于这点,采用Adjusted R square进行调整。
4.当想确定方程中的每一个自变量对y的边际解释能力时,应该确定每个自变量的偏确定系数(partial coefficient of determination)。注意,偏确定系数反映的是新加入回归的变量所解释的百分比,而这百分比是以前一步回归所未能解释的部分为整体,而不是以y的总变化为整体。也就是说,x1与x2共同解释的y的贡献,已包含在x1解释的y的贡献里面。偏确定系数的意义是,用于判断自变量的重要性。但是,在遇到虚拟变量时,计算这个的意义不大。
不过,需要注意的是,cftool 工具箱只能进行单个变量的曲线拟合,即待拟合的公式中,变量只能有一个。对于混合型的曲线,例如 y = a*x + b/x ,工具箱的拟合效果并不好。