下载此文档

统计分析 主成分分析.ppt


文档分类:高等教育 | 页数:约26页 举报非法文档有奖
1/26
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/26 下载此文档
文档列表 文档介绍
统计分析 主成分分析
第1页,共26页,编辑于2022年,星期二
问题的提出
主成分分析方法(principal component analysis,PCA )就是综合处理这种问题的一种强有力的工具。它把原来多个变量(显为了使这些综合变量所含的信息互不重叠,应要求它们之间互不相关。
第8页,共26页,编辑于2022年,星期二
§8 主成分分析
什么是主成分分析
在实际问题中,经常遇到多变量(指标)问题,而且变量之间有一定的相关性。变量多且变量间有一定的相关性,势必增加了分析问题的复杂性。
主成分分析就是设法将原来变量重新组合成一组新的互相无关的几个综合变量来代替原来变量,同时根据实际需要从中可取几个较少的综合变量尽可能多地反映原来变量的信息。
第9页,共26页,编辑于2022年,星期二
§8 主成分分析
基本思想
主成分分析就是设法将原来众多具有一定相关性的变量(如p个变量),重新组合成一组新的相互无关的综合变量来代替原来变量。怎么处理?
通常数学上的处理就是将原来p个变量作线性组合作为新的综合变量。如何选择?
如果将选取的第一个线性组合即第一个综合变量记为F1,自然希望F1尽可能多的反映原来变量的信息。怎样反映?
最经典的方法就是用方差来表达,即var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称之为第一主成分(principal component I)。
第10页,共26页,编辑于2022年,星期二
§8 主成分分析
基本思想
如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合。F2称为第二主成分(principal component II)。 F1和F2的关系?
为了有效地反映原来信息,F1已有的信息就不再出现在F2中,即cov(F1,F2)=0。依此类推,可以获得p个主成分。因此,这些主成分之间是互不相关的,而且方差依次递减。在实际中,挑选前几个最大主成分来表征。标准?
各主成分的累积方差贡献率>80%或特征根>1。
第11页,共26页,编辑于2022年,星期二
§8 主成分分析
数学模型
假定有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据阵
当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困
难,就需要进行降维处理,即用较少的几个综合变量代替原来
较多的变量变量,而且使这些较少的综合变量既能尽量多地反
映原来较多变量变量所反映的信息。
第12页,共26页,编辑于2022年,星期二
§8 主成分分析
数学模型
引例8-1中,有31个样本,每个样本有8个变量。
第13页,共26页,编辑于2022年,星期二
§8 主成分分析
数学模型
要从原来的所有变量得到新的综合变量,一种较为简单而常用的方法是作线性变换,使新的综合变量为原变量的线性组合。
第14页,共26页,编辑于2022年,星期二
§8 主成分分析
数学模型的条件
对于任意常数c,有
为了使方差 可以比较,要求线性组合的系数满足规范化条件
要求原始变量之间存在一定的相关性
要求各个综合变量间互不相关,即协方差为0
为了消除变量量纲不同对方差的影响,通常对数据进行标准化处理,变量之间的协方差即为相关系数。
第15页,共26页,编辑于2022年,星期二
§8 主成分分析
数学模型的条件
如果多个变量相互独立或相关性很小,就不能进行
主成分分析。
Kaiser-Meyer-Olkin(KMO)检验:检验变量之间的
偏相关系数是否过小。
Bartlett’s 检验。该检验的原假设是相关矩阵为单位
阵(不相关),如果不能拒绝原假设,则不适合进行主
成分分析。
第16页,共26页,编辑于2022年,星期二
§8 主成分分析
数学模型的推导
寻求X的线性函数 ,使相应的方差尽可能地大,即

第17页,共26页,编辑于2022年,星期二
§8 主成分分析
数学模型的推导
通过推导可知, 的主成分就是以协方差阵
的特征向量为系数的线性组合,它们互不相关,其方差
为 的特征根。
由于 特征根 ,所以有
,因此主成分的名次是
按特征根取值大小的顺利排列的。
在解决实际问题时,一般不是取全部p个主成分,而是取前k个。
方法之

统计分析 主成分分析 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数26
  • 收藏数0 收藏
  • 顶次数0
  • 上传人卓小妹
  • 文件大小1.64 MB
  • 时间2022-05-03