下载此文档

第十二章回归分析要点.doc


文档分类:经济/贸易/财会 | 页数:约14页 举报非法文档有奖
1/14
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/14 下载此文档
文档列表 文档介绍
该【第十二章回归分析要点 】是由【泰山小桥流水】上传分享,文档一共【14】页,该文档可以免费在线阅读,需要了解更多关于【第十二章回归分析要点 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。第十二章 回归分析前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、 先验知识或对数据的直观观察决定, 要作的工作是由数据用最小二乘法计算函数中的待定系数。 从计算的角度看, 问题似乎已经完全解决了,还有进一步研究的必要吗 ?从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点, 那么系数的估计值是没有多大意义的。 另外也可以用方差分析方法对模型的误差进行分析, 对拟合的优劣给出评价。 简单地说,回归分析就是对拟合问题作的统计分析。具体地说,回归分析在一组数据的基础上研究这样几个问题:(i)建立因变量 y与自变量x,x, ,xm之间的回归模型(经验公式) ;(ii)对回归模型的可信度进行检验;(iii)判断每个自变量 xi(i ,, ,m)对y的影响是否显著;iv)诊断回归模型是否适合这组数据;v)利用回归模型对y进行预报或控制。多元线性回归回归分析中最简单的形式是y称一元线性回归。它的一个自然推广是y x,或者更一般地 x,x,y均为标量, ,为回归系数,为多元变量,形如mxm()yf(x)mfm(x)()其中x(x,,xm),fj(j,,m)是已知函数。这里y对回归系数(,,,m)是线性的,称为多元线性回归。不难看出,对自变量x作变量代换,就可将()化为()的形式,所以下面以()为多元线性回归的标准型。.模型在回归分析中自变量x(x,x,,xm)是影响因变量y的主要因素,是人们能控制或能观察的,而y还受到随机因素的干扰,可以合理地假设这种干扰服从零均值的正态分布,于是模型记作yxmxm()~N(,)其中未知。现得到n个独立观测数据(yi,xi,,xim),i,,n,nm,由()得yiximximi()i~N(,),i,,n记--xxmyX,Y()xnxnmyn[n]T,[m]T()表为YX()~N(,). 参数估计用最小二乘法估计模型( )中的参数 。由()式这组数据的误差平方和为nQ()(YX)T(YX)()ii求使Q()最小,得到的最小二乘估计,记作?,可以推出?(XTX)XTY()将?代回原模型得到y的估计值而这组数据的拟合值为估计,而y???xmxm()??X?,拟合误差?的YeYY称为残差,可作为随机误差nnQei(yiy?i)()ii为残差平方和(或剩余平方和) ,即Q(?)。. 统计分析不加证明地给出以下结果:(i)?是的线性无偏最小方差估计。指的是?是Y的线性函数;?的期望等于;在的线性无偏估计中,?的方差最小。(ii)?服从正态分布?~N(,(XTX))()(iii)对残差平方和Q,EQ(nm),且Q~(nm)()由此得到的无偏估计snQ?()ms是剩余方差(残差的方差),s称为剩余标准差。--ny)(iv)对Y的样本方差S(yi进行分解,有iny)SQU,U(y?i()i其中Q是由()定义的残差平方和,反映随机误差对y的影响,U称为回归平方和,反映自变量对y的影响。. 回归模型的假设检验因变量y与自变量x, ,xm之间是否存在如模型 ()所示的线性关系是需要检验的,显然,如果所有的|?j|(j,,m)都很小,y与x,,xm的线性关系就不明显,所以可令原假设为H:j(j,,m)当H成立时由分解式()定义的U,Q满足FU/m~F(m,nm)()Q/(nm))(,)在显著性水平下有分位数(,,若,接FmnmFFmnm受H;否则,拒绝。注意拒绝H只说明y与x,,xm的线性关系不明显,可能存在非线性关系,如平方关系。还有一些衡量y与x,,xm相关程度的指标,如用回归平方和在样本方差中的比值定义RU()SR[,]称为相关系数,R越大,y与x,,xm相关关系越密切,通常,R大于.(或.)才认为相关关系成立。.回归系数的假设检验和区间估计当上面的H被拒绝时,j不全为零,但是不排除其中若干个等于零。所以应进一步作如下m个检验(j,,m):H(j):j由()式,?j~N(j,cjj),cjj是(XTX)对角线上的元素,用s代替,由()~()式,当H(j)成立时tj?j/cjj~t(nm)()Q/(nm)对给定的,若|tj|t(nm),接受H(j);否则,拒绝。()式也可用于对j作区间估计(j,,,m),在置信水平下,j的置信区间为--[?jt(nm)scjj,?jt(nm)scjj]()其中sQ。(x,,xm)预测y,y是随机当回归模型和系数通过检验后,的,显然其预测值(点估计)为y????()xmxm给定可以算出y的预测区间(区间估计),结果较复杂,但当n较大且xi接***均值xi时,y的预测区间可简化为s,yus][yu()??其中u是标准正态分布的分位数。对y的区间估计方法可用于给出已知数据残差eiyi?(i,,n)的置信区yi间,ei服从均值为零的正态分布,所以若某个ei的置信区间不包含零点,则认为这个数据是异常的,可予以剔除。. Matlab实现Matlab统计工具箱用命令regress实现多元线性回归,用的方法是最小二乘法,用法是:b=regress(Y,X)?,?,,?m。其中Y,X为按()式排列的数据,b为回归系数估计值[b,bint,r,rint,stats]=regress(Y,X,alpha)这里Y,X同上,alpha为显著性水平(缺省时设定为.),b,bint为回归系数估计值和它们的置信区间,r,rint为残差(向量)及其置信区间,stats是用于检验回归模型的统计量,有三个数值,第一个是R(见()式),第二个是F(见()式),第个是与F对应的概率p,p拒绝H,回归模型成立。残差及其置信区间可以用rcoplot(r,rint)画图。例合金的强度y与其中的碳含量x有比较密切的关系,今从生产中收集了一批数据如下表:x.........y.........试先拟合一个函数 y(x),再用回归分析对它进行检验。解 先画出散点图:x=.:.:.;y=[,.,.,.,.,.,.,.,.];plot(x,y,'+')可知y与x大致上为线性关系。设回归模型为y x ()--用regress和rcoplot编程如下:clc,clearx=[.:.:.]';y=[,.,.,.,.,.,.,.,.]';x=[ones(,),x];[b,bint,r,rint,stats]=regress(y,x);b,bint,stats,rcoplot(r,rint)得到b=..bint=....stats=...即?.,?.,?的置信区间是[.,.],?的置信区间是[.,.];R.,F.,p.。可知模型()成立。观察命令rcoplot(r,rint)所画的残差分布,除第个数据外其余残差的置信区间均包含零点,第个点应视为异常点,将其剔除后重新计算,可得b=..bint=....stats=...应该用修改后的这个结果。例某厂生产的一种电器的销售量y与竞争对手的价格x和本厂的价格x有关。下表是该商品在个城市的销售记录。x元x元Y个试根据这些数据建立y与x和x的关系式,对得到的模型和系数进行检验。若某市本厂产品售价(元),竞争对手售价(元),预测商品在该市的销售量。解分别画出y关于x和y关于x的散点图,可以看出y与x有较明显的线性关系,而y与x之间的关系则难以确定,我们将作几种尝试,用统计分析决定优劣。设回归模型为y x x ()编写如下程序:x=[]';x=[ ]';y=[ ]';x=[ones(,),x,x];[b,bint,r,rint,stats]=regress(y,x);b,bint,stats得到b=..-.bint=-..-..-.-.--stats=...可以看出结果不是太好:p.,()可用,;;?,?的置信区间包含了零点。下面将试图用x,x的二次函数改进它。. 多项式回归如果从数据的散点图上发现y与x呈较明显的二次(或高次)函数关系,或者用线性模型()的效果不太好,就可以选用多项式回归。..一元多项式回归polyfit实现。一元多项式回归可用命令例将至岁的运动员每两岁一组分为组,每组两人测量其旋转定向能力,以考察年龄对这种运动能力的影响。现得到一组数据如下表:年龄第一人.......第二人.......试建立二者之间的关系。解数据的散点图明显地呈现两端低中间高的形状,所以应拟合一条二次曲线。选用二次模型yaxaxa()编写如下程序:x=::;x=[x,x];y=[..... ........ ....];[p,s]=polyfit(x,y,);p得到p=-..-.即a.,a.,a.。上面的s是一个数据结构,用于计算其它函数的计算,如[y,delta]=polyconf(p,x,s);y得到y的拟合值,及预测值 y的置信区间半径 delta。 用polytool(x,y,),可以得到一个如上图的交互式画面,在画面中绿色曲线为拟合曲线,它两侧的红线是y的置信区间。你可以用鼠标移动图中的十字线来改变图下方的x值,也可以在窗口内输入,左边就给出 y的预测值及其置信区间。通过左下方的--Export下拉式菜单,可以输出回归系数等。这个命令的用法与下面将介绍的rstool相似。..多元二项式回归统计工具箱提供了一个作多元二项式回归的命令rstool,它也产生一个交互式画面,并输出有关信息,用法是rstool(x,y,model,alpha)其中输入数据x,y分别为nm矩阵和n维向量,alpha为显著性水平(缺省时设定为.),model由下列个模型中选择个(用字符串输入,缺省时设定为线性模型):linear(线性):yxmxmmjjxjpurequadratic(纯二次):yxmxmjinteraction(交叉):yxmxmjkxjxkjkmquadratic(完全二次):yxmxmjkxjxkj,km我们再作一遍例商品销售量与价格问题,选择纯二次模型,即yxxxx()编程如下:x=[]';x=[]';y=[]';x=[xx];rstool(x,y,'purequadratic')- 得到一个如图所示的交互式画面,左边是 x(=)固定时的曲线 y(x)及其置信区间,右边是 x(=)固定时的曲线 y(x)及其置信区间。用鼠标移动图中的十字线,或在图下方窗口内输入,可改变 x,x。图左边给出 y的预测值及其置信区间,就用这种画面可以回答例提出的“若某市本厂产品售价(元),竞争对手售价(元),预测该市的销售量”问题。图的左下方有两个下拉式菜单,一个菜单 Export用以向Matlab工作区传送数据,包括beta(回归系数),rmse(剩余标准差),residuals(残差)。模型()的回归系数和剩余标准差为beta=-..-.-..rmse=.--另一个菜单model用以在上述个模型中选择,你可以比较以下它们的剩余标准差,会发现以模型()的rmse=.最小。§ 非线性回归和逐步回归本节介绍怎样用 Matlab统计工具箱实现非线性回归和逐步回归。.非线性回归非线性回归是指因变量 y对回归系数 , , m(而不是自变量)是非线性的。Matlab统计工具箱中的nlinfit,nlparci,nlpredci,nlintool,不仅给出拟合的回归系数,而且可以给出它的置信区间,及预测值和置信区间等。下面通过例题说明这些命令的用法。例在研究化学动力学反应过程中,建立了一个反应速度和反应物含量的数学模型,形式为xxyxxx其中,,是未知的参数,x,x,x是三种反应物(氢,n戊烷,异构戊烷)的含量,y是反应速度。今测得一组数据如下表,试由此确定参数,,,并给出其置信区间。,,的参考值为(.,.,.,,)。序号反应速度y氢xn戊烷x异构戊烷x.............解首先,以回归系数和自变量为输入变量,:functionyhat=huaxue(beta,x);yhat=(beta()*x()-x()/beta())./(+beta()*x()+...beta()*x()+beta()*x());然后,用nlinfit 计算回归系数,用 nlparci 计算回归系数的置信区间, 用nlpredci计算预测值及其置信区间,编程如下:clc,clearx=[ . . . . . --........];x=x(:,:);y=x(:,);beta=[.,.,.,,];%回归系数的初值[betahat,f,j]=nlinfit(x,y,'huaxue',beta);%f,j是下面命令用的信息betaci=nlparci(betahat,f,j);betaa=[betahat,betaci]%回归系数及其置信区间[yhat,delta]=nlpredci('huaxue',x,betahat,f,j)%y的预测值及其置信区间的半径,置信区间为yhat±delta。用nlintool得到一个交互式画面,左下方的Export可向工作区传送数据,如剩余标准差等。使用命令nlintool(x,y,'huaxue',beta)可看到画面,并传出剩余标准差rmse=.。.逐步回归实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题,逐步回归是一种从众多变量中有效地选择重要变量的方法。以下只讨论线性回归模型()式的情况。变量选择的标准,简单地说就是所有对因变量影响显著的变量都应选入模型,而影响不显著的变量都不应选入模型,从便于应用的角度应使模型中变量个数尽可能少。若候选的自变量集合为S{x,,xm},从中选出一个子集SS,设S中有l个自变量(l,,m),由S和因变量y构造的回归模型的误差平方和为Q,则模型的剩余标准差的平方sQ,n为数据样本容量。所选子集S应使s尽量小,nlQ越小,但若模型中包含有对y影响通常回归模型中包含的自变量越多,误差平方和很小的变量,那么Q不会由于包含这些变量在内而减少多少,却因l的增加可能使s反而增大,同时这些对y影响不显著的变量也会影响模型的稳定性,因此可将剩余标准差s最小作为衡量变量选择的一个数量标准。逐步回归是实现变量选择的一种方法,基本思路为,先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对y影响最大的,再对原来子集中的变量进行检验,从变得不显著的变量中剔除一个影响最小的,直到不能引入和剔除为止。使用逐步回归有两点值得注意,一是要适当地选定引入变量的显著性水平in和剔除变量的显著性水平out,显然,in越大,引入的变量越多;out越大,剔除的变量越少。二是由于各个变量之间的相关性,一个新的变量引入后,会使原来认为显著的某个变量变得不显著,从而被剔除,所以在最初选择变量时应尽量选择相互独立性强的那些。在Matlab统计工具箱中用作逐步回归的是命令stepwise,它提供了一个交互式画面,通过这个工具你可以自由地选择变量,进行统计分析,其通常用法是:stepwise(x,y,inmodel,alpha)--

第十二章回归分析要点 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息