下载此文档

《双变量回归分析》.ppt


文档分类:高等教育 | 页数:约50页 举报非法文档有奖
1/50
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/50 下载此文档
文档列表 文档介绍
该【《双变量回归分析》 】是由【相惜】上传分享,文档一共【50】页,该文档可以免费在线阅读,需要了解更多关于【《双变量回归分析》 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。第一章双变量回归分析教师:〔FrancisGalton〕发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归〞到全体人口的平均身高。〔KarlPearson〕证实了加尔顿普遍回归定律。皮尔逊收集了1000多个家庭的身高记录。他发现对于父辈高的群体,儿辈的平均身上下于他们的父辈,而对于父辈矮的群体,儿辈的平均身高那么高于他们的父辈。用加尔顿的话来说,就是“回归到中等〔regressiontomediocrity〕〞。,其用意在于通过后者〔在重复抽样中〕的或设定值,去估计和〔或〕预测前者的〔总体〕均值。回到加尔顿的例子:我们关心给定父辈身高,找出儿辈平均身高的变化。值得注意的是,随着父辈身高的增加,儿辈平均身高也在增加。7080父辈的身高(英寸)儿辈的身高(英寸)807060如左图所示:注意对应任一给定的父辈的身高,都有一个儿辈身高的分布范围。我们勾画了一条通过这些散点的一条直线,以表示儿辈平均身高如何随父辈身高的增加而增加的。这条线我们称为回归线〔regressionline〕。,我们不像经典物理学中考虑的那种变量之间的函数或确定性依赖关系。在回归分析中,我们考虑的是一类所谓统计依赖关系。在变量之间的统计关系中,我们主要处理是随机变量,也就是有着概率分布的变量。例如,作物收成对气温、降水、阳光及施肥的依赖关系是统计性质的。这个性质的意义在于:这些解释变量固然重要,但是并不能够使农业学家准确地预测作物的收成。一那么这些变量的测量是有误差的,二那么还有一大堆影响到作物收成的变量,我们无法一一识别出来。,但它并不一定意味着因果关系。用肯达尔和斯图亚特的话说:“一个统计关系式,无论多强也不管多么有启发性,却永远不能确立因果方面的联系,对因果关系的理念,必须来自统计学以外,最终来自这种或那种理论。〞例如在诸多有趣的经济指标中有一个“裙子长短指数〞。这个指数用女性穿着裙子的长短来判断经济的好坏。当经济不好时,失业率增加,女性就业更困难,短裙看起来能年轻、活力一些,有利于寻求新的职位。但是我们不能因此得到结论:在座的女生穿着短裙是因为经济不好,或者因为在座的女生穿着短裙所以中国的经济不好。从逻辑上说,统计关系式本身不意味着任何因果关系。:时间序列、横截面数据、和混合数据。时间序列:对一个变量在不同时期取值的一组观测结果。例如随着年份GDP的变换、上证综合指数的每日变换等等。基于时间序列数据的计量分析,大多假定所依据的时间序列数据是平稳的〔stationary〕。粗略地来说,如果一组时间序列数据,它们的均值和方差在时间上没有系统的变化,就是平稳的。要记住:每当你使用时间序列数据时,你都要问一问它的平稳性如何。精选课件横截面数据:对一个或多个变量在同一个时点上收集的数据。例如2021年9月份,全国主要30个省份的生猪的产量和价格、全国每个高校2021届大学生的就业率等等。横截面数据也有其自身的问题,特别是异方差〔heterogeneity〕的问题。有的省〔湖南、江西〕生产巨量的生猪,而有的省〔北京和广东〕生产量很少。当我们的统计分析中包含有相异的单元时,我们必须考虑尺度效应,以防止把苹果和桔子混淆了起来。混合数据:兼有时间序列和横截面数据。例如人口普查数据,从1980到2021年中国人口总量变化是时间序列,而2021年不同省市人口的分布那么是横截面数据。,X表示家庭周可支配收入,Y表示家庭周消费支出。X,每周家庭收入(美元)Y,每周家庭消费支出8010012014016018020022024026055657980102110120135137150607084931071151361371451526574909511012014014015517570809410311613014415216517875859810811813514515717518088113125140160189185115191共计325462445707678750685**********精选课件将这60户按照收入划分为10组,分析每一组的家庭消费支出。对应每周收入在80美元的5户,每周家庭消费支出在55到75美元不等。上表中,每一纵列给出的是在给定的收入水平X下的消费支出Y的分布。就是说,它给出了以X为给定值条件下的Y的条件分布。散点图根据表格的数据制成。精选课件现在,对于给定的X,例如X=80美元,有5个Y值:55、60、65、70和75美元。因此给定X=80得到这些消费支出中任何一个概率是1/5。用符号来表示:对于Y的每一条件概率分布,我们能够计算出来它的均值,称为条件均值或条件期望,记做E(Y|X=Xi),并读作“在X取特定Xi值时Y的期望值〞。给定X=80,Y的期望或条件均值为:精选课件

《双变量回归分析》 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数50
  • 收藏数0 收藏
  • 顶次数0
  • 上传人相惜
  • 文件大小3.66 MB
  • 时间2024-04-16