前言
整理了其他人写的一些关于CCA的总结,写的真的很详细。
详见:CCA资料
刘建平_CCA总结
Jerrylead_CCA
在实际问题中,需要研究多个变量之间的相关关系,此时,可以应用典型相关分析(Canonical Correlation Analysis)。这个算法由H.Hotelling于1936年提出,在1970年代趋于成熟。早期由于需要大量的矩阵运算所以没有广泛应用。现代计算机提高了CCA的地位。
比如,我们拿到了两组数据,第一组是人身高和体重的数据,第二组是对应的跑步能力和跳远能力的数据,那么我们可以利用CCA来分析这两组数据是否相关。
CCA概述
在数理统计中,假设有两组一维的数据集X和Y,则相关系数
其中cov(X,Y)是X和Y的协方差,而D(X),D(Y)分别是X和Y的方差。相关系数ρ的取值为[-1,1], ρ的绝对值越接近于1,则X和Y的线性相关性越高。越接近于0,则X和Y的线性相关性越低。
虽然相关系数可以很好的帮我们分析一维数据的相关性,但是对于高维数据就不能直接使用了。拿上面我们提到的,如果X是包括人身高和体重两个维度的数据,而Y是包括跑步能力和跳远能力两个维度的数据,就不能直接使用相关系数的方法。那我们能不能变通一下呢?CCA给了我们变通的方法。
CCA使用的方法是将多维的X和Y都用线性变换为1维的X’和Y’,然后再使用相关系数来看X’和Y’的相关性。将数据从多维变到1位,也可以理解为CCA是在进行降维,将高维数据降到1维,然后再用相关系数进行相关性的分析。下面我们看看CCA的算法思想。
CCA算法思想
我们知道,两个随机变量x、y之间的线性关系可以通过对这两个变量的N组样本对进行线性回归求得。但是,如果要求两组随机变量x、y之间的线性关系,则可以用典型关联分析(Canonical correlation analysis)来求解。CCA是寻找两组变量对应的两个线性变换
现在我们具体来讨论下CCA的算法思想。假设我们的数据集是X和Y,X为
对于X矩阵,我们将其投影到1维,或者说进行线性表示,对应的投影向量或者说线性系数向量为
我们CCA的优化目标是最大化
在投影前,我们一般会把原始数据进行标准化,得到均值为0而方差为1的数据X和Y。这样我们有:
由于我们的X,Y的均值均为0,则
令
由于分子分母增大相同的倍数,优化目标结果不变,我们可以采用和SVM类似的优化方法,固定分母,优化分子,具体的转化为:
也就是说,我们的CCA算法的目标最终转化为一个凸优化过程,只要我们求出了这个优化目标的最大值,就是我们前面提到的多维X和Y的相关性度量,而对应的
这个函数优化一般有两种方法,第一种是奇异值分解SVD,第二种是特征分解,两者得到的结果一样。
CCA算法的SVD求解
对于上面的优化目标,我们可以做一次矩阵标准化,就可以用SVD来求解了。
首先,我们令
也就是说,我们的优化目标变成下式:
仔细一看,如果将u和v看做矩阵
也就是说我们最大化
可以看出,SVD的求解方式非常简洁方便。但是如果不熟悉SVD的话,也可以用传统的拉格朗日函数加上特征分解来完成这个函数的优化。
CCA算法的特征分解求解
特征分解方式就比较传统了,利用拉格朗日函数,优化目标转化为最大化下式:
分别对
将上面第一个式子左乘
其实也就是说我们的拉格朗日系数就是我们要优化的目标。我们继续将上面的两个式子做整理,第一个式子左乘
将上面第二个式子带入第一个式子,我们得到
这个式子我们就熟悉了,这不就是特征分解吗!要求最大的相关系数
同样的办法,我们将上面第一个式子带入第二个式子,我们得到
可以看出特征分解的方法要比SVD复杂,但是两者求得的结果其实是等价的,只要利用SVD和特征分解之间的关系就很容易发现两者最后的结果相同。
CCA算法流程
这里我们对CCA的算法流程做一个总结,以SVD方法为准。
输入:各为m个的样本X和Y,X和Y的维度都大于1 输出:X,Y的相关系数
ρ ,X和Y的线性系数向量a和b
1)计算X的方差SXX , Y的方差SYY ,X和Y的协方差SXY ,Y和X的协方差SYX=STXY
2) 计算矩阵M=S−1/2XXSXYS−1/2YY
3)对矩阵M 进行奇异值分解,得到最大的奇异值ρ ,和最大奇异值对应的左右奇异向量u,v
4) 计算X和Y的线性系数向量a和b,a=S−1/2XXu,b=S−1/2YYv
小结
CCA算法广泛的应用于数据相关度的分析,同时还是偏最小二乘法的基础。但是由于它依赖于数据的线性表示,当我们的数据无法线性表示时,CCA就无法使用,此时我们可以利用核函数的思想,将数据映射到高维后,再利用CCA的思想降维到1维,求对应的相关系数和线性关系,这个算法一般称为KCCA。
此外,我们在算法里只找了相关度最大的奇异值或者特征值,作为数据的相关系数,实际上我们也可以像PCA一样找出第二大奇异值,第三大奇异值,。。。得到第二相关系数和第三相关系数。然后对数据做进一步的相关性分析。但是一般的应用来说,找出第一相关系数就可以了。
有时候我们的矩阵