视频前背景分离论文之(5) Robust PCA via Nonconvex Rank Approximation

时间:2022-07-27 06:33:03

1、Abstract

RPCA是低秩矩阵恢复的general的模型框架, 在某些假设下它能够以很大的概率很好地恢复原矩阵潜在的低秩矩阵(the underlying true low rank matrix)的,然而,实际应用中这些假设并不一定成立 。在RPCA中核范数是通过将奇异值加和来逼近矩阵的秩的,即相当于求奇异值的 1norm . 这样得到的近似误差是不可忽略的,因此模型得到的低秩矩阵是有较大偏差的。为找到一种更接近原矩阵的秩(true low rank)的范数,论文提出了一种非凸秩逼近的方法(a nonconvex rank approximation). 相比核范数,这种方法能更好地逼近矩阵的秩。模型是通过一种有效的增广拉格朗日乘子法求解的。

2、RPCA

前面已经介绍过,所以这里换个方式从应用的角度介绍RPCA。视频处理过程中当光照强度变化时,背景就可以看成视频的低秩成分,而移动物体(前景)可认为是稀疏成分。同样,人脸识别中,clean face是低秩成分,而成像过程造成的阴影是稀疏成分。文本处理领域,文本集中,common words构成的矩阵可以被看成是低秩的,而用以区分不同文本的few words即为稀疏成分。

RPCA的精确的数学建模为:

minL,Srank(L)+λS0s.t.X=L+S

但是,该优化问题是非凸且NP-hard的,所以通过核范数来代替L的秩,而 1norm 来松弛 0norm 。这样得到的凸模型为:
minL,SL+λS1s.t.X=L+S

上述凸模型的优化是很容易的,尤其在非相干性假设下,能够以很大概率恢复矩阵的低秩和稀疏结构。但是实际应用中非相干性假设是无法保证的,所以最终求得的全局最优解存在很大的偏差;此外,凸松弛过程中,核范数是对奇异值求 1norm 得到的,而受 1norm 收缩效应( shrinkage effect)的影响,会使模型结果产生较大偏差。

迄今,RPCA已经有很多变种版本了,这里我只介绍两种。一是通过 2,1norm 加入空间先验信息:

minL,SL+λS2,1s.t.X=L+S

第二种也是一种非凸RPCA(nonconvex RPCA) [. Netrapalli, U. Niranjan, S. Sanghavi, A. Anandkumar, and P. Jain, “Non-convex robust pca,” in Advances in Neural Information Processing Systems, 2014, pp. 1107–1115. ],其思想是将偏差交替投影到低秩和稀疏矩阵空间,该模型具有复杂度低,全局收敛性,收敛快,精确恢复低秩矩阵等一系列优点。回头我会专门mark一下这篇论文。

3、Model

minL,SLγ+λSls.t.X=L+S

这里, γ 称为 γnorm ,用以逼近矩阵的秩, l 用以刻画矩阵的noise和outliers的真实的范数,比如可以采用常用的 1norm

定义矩阵 L γnorm 为:

Lγ=i(1+γ)σi(L)γ+σi(L),γ>0

显然, limγ0Lγ=rank(L) limγLγ=L ,并且 Lγ 是酉不变范数,即 Lγ=ULVγ 对任意正交的 U V 都成立。值得注意的是,这里 γ 并不是一种真正意义上的矩阵范数。

最后,模型优化即理论证明不予介绍,只贴出论文中用以比较几种松弛秩的结果的figure:
视频前背景分离论文之(5) Robust PCA via Nonconvex Rank Approximation