降维之主成分分析法(PCA)

1、主成分分析法的思想

2、主成分的选择

3、主成分矩阵的求解

4、主成分的方差贡献率和累计方差贡献率

5、基于投影方差最大化的数学推导

一、主成分分析法的思想

我们在研究某些问题时,需要处理带有很多变量的数据,比如研究房价的影响因素,需要考虑的变量有物价水平、土地价格、利率、就业率、城市化率等。变量和数据很多,但是可能存在噪音和冗余,因为这些变量中有些是相关的,那么就可以从相关的变量中选择一个,或者将几个变量综合为一个变量,作为代表。用少数变量来代表所有的变量,用来解释所要研究的问题,就能从化繁为简,抓住关键,这也就是降维的思想。

主成分分析法(Principal Component Analysis,PCA)就是一种运用线性代数的知识来进行数据降维的方法,它将多个变量转换为少数几个不相关的综合变量来比较全面地反映整个数据集。这是因为数据集中的原始变量之间存在一定的相关关系,可用较少的综合变量来综合各原始变量之间的信息。这些综合变量称为主成分,各主成分之间彼此不相关,即所代表的的信息不重叠。

那么主成分分析法是如何降维的呢?我们从坐标变换的角度来获得一个感性的认识。

我们先从最简单的情形开始,假定数据集中的原始变量只有两个,即数据是二维的,每个观测值都用标准的X-y坐标轴来表示。如果每一个维度都服从正态分布(这比较常见),那么这些数据就会形成椭圆形状的点阵。如下图所示,椭圆有一个长轴和一个短轴,二者是垂直的。

降维之主成分分析法(PCA)

在短轴上,观测点数据的变化比较小,如果把这些点垂直地投影到短轴上,那么有很多点的投影会重合,这相当于很多数据点的信息都没有被充分利用到;而在长轴上,观测点的数据变化比较大。因此,如果坐标轴和椭圆的长短轴平行,那么代表长轴的变量直接可以从数据集的原始变量中找到,它描述了数据的主要变化,而另一个原始变量就代表短轴的变量,描述的是数据的次要变化。在极端情况下,短轴退化成一个点,那么就只能用长轴的变量来解释数据点的所有变化,就可以把二维数据降至一维。

但是,坐标轴通常并不和椭圆的长短轴平行,就像上图所展示的那样。因此,需要构建新的坐标系,使得新坐标系的坐标轴与椭圆的长短轴重合或平行。这需要用到坐标变换,把观测点在原坐标轴的坐标转换到新坐标系下,同时也把原始变量转换为了长轴的变量和短轴的变量,这种转换是通过对原始变量进行线性组合的方式而完成的

比如一个观测点在原X-y坐标系中的坐标为(4,5),坐标基为(1,0)和(0,1),如果长轴为斜率是1的线,短轴为斜率是-1的线,新坐标系以长轴和短轴作为坐标轴,那么新坐标基可以取为(1/√2, 1/√2)和(-1/√2, 1/√2)。我们把两个坐标基按行放置,作为变换矩阵,乘以原坐标,也就是对原坐标进行线性组合,可以得到该点在新坐标系下的坐标。可以看到变换后长轴变量的值远大于短轴变量的值。

降维之主成分分析法(PCA)

如果长轴变量解释了数据集中的大部分变化,那么就可以用长轴变量来代表原来的两个变量,从而把二维数据降至一维。椭圆的长轴和短轴的长度相差越大,这种做法的效果也就越好。

接着我们把二维变量推广到多维变量,具有多维变量的数据集其观测点的形状类似于一个高维椭球,同样的,把高维椭球的轴都找出来,再把代表数据大部分信息的k个最长的轴作为新变量(相互垂直),也就是k个主成分,那么主成分分析就完成了。

选择的主成分越少,越能体现降维二字的内涵,可是不可避免会舍弃越多的信息。因此以什么标准来决定我们应该选几个主成分呢?

二、主成分的选择问题

到这里,我们应该有三个问题需要思考:一是进行坐标变换的矩阵是怎么得到的呢?二是用什么指标来衡量一个主成分所能解释的数据变化的大小?三是以什么标准来决定选多少个主成分呢?

首先来解决第二和第三个问题。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwxdfd.html