《视觉SLAM十四讲》学习笔记-3D->2D: PnP问题的由来

时间:2024-04-04 08:55:38

PnP问题

  • PnP为 Perspective-n-Point的简称,是求解3D到2D点对的运动的方法:即给出n个3D空间点时,如何求解相机的位姿
  • 典型的PnP问题求解方式有很多种,例如P3P, 直接线性变换(DLT), EPnP(Efficient PnP), UPnP。还有非线性的Bundle Adjustment.

DLT, 直接线性变换

高空间点P的齐次方程为P=(X,Y,Z),投影到特征点x1=(u1,v1,1),为求解Rt,定义增广矩阵[R|t]:
展开等式后可得到:

s[u1v11]=[t1t2t3t4t5t6t7t8t9t10t11t12][XYZ1]

消去s后可得到约束:
u1=t1X+t2Y+t3Z+t4t9X+t10Y+t11Z+t12  v1=t5X+t6Y+t7Z+t8t9X+t10Y+t11Z+t12

假设:
t1=(t1,t2,t3,t4),  t2=(t5,t6,t7,t8),  t3=(t9,t10,t11,t12)

则有:
t1Pt3Pu1=0,t2Pt3Pv1=0

上式中t是待求的变量。易知一个特征点可提供两个关于t的约束,假若存在N个特征点,则有如下方程成立:
[P10u1P10P1v1P1PN0uNPN0PNvNPN][t1t2t3]=0

观察到t有12个变量,通过方程形式可知最少可以通过6对匹配点即可得到T的解。所以本方法又可称为直接线性变换法;当匹配点大于六对时,可以使用SVD等方法对超定方程求最小二乘解。

注意到DLT解出的T是由R和t两部分构成的,因而R满足R=SO(3),所以对于T矩阵需要寻找一个最好的旋转矩阵,这可以由QR分解完成,相当于把结果从矩阵空间重影到SE(3)流形上,转成旋转和平移两部分。

P3P问题

《视觉SLAM十四讲》学习笔记-3D->2D: PnP问题的由来

首先设标记符号定义如上图所示。其中A,B,C为世界坐标系。图中为3D到3D的对应点,所以是把PnP问题转化为ICP问题。

先利用三解形近似关系有以下三解形相似:

OabOAB,  ObcOBC,  OacOAC

考虑余弦关系:

OA2+OB22OAOBcos<a,b>=AB2OB2+OC22OBOCcos<b,c>=BC2OA2+OBC22OAOCcos<a,c>=AC2

左右两边同时除以OC2, 令x=OA/OC, y=OB/OC有:
x2+y22xycos<a,b>=AB2/OC2y2+122ycos<b,c>=BC2/OC2x2+122xcos<a,c>=AC2/OC2

再令v=AB2/OC2, v=BC2/OC2OC2/AB2, w=AC2/OC2OC2/AB2,有
x2+y22xycos<a,b>v=0y2+122ycos<b,c>uv=0x2+122xcos<a,c>wv=0

从上式中先解出v,代入第二和第三个式子,有

(1u)y2ux2cos<b,c>y+2uxycos<a,b>+1=0(1w)x2wy2cos<a,c>x+2wxycos<a,b>+1=0x2+122xcos<a,c>wv=0

上式中由于A,B,C已知,x,y未知。是一个二元二次方程,最多可得到4个解。需要一个验证点来获得最优解。

可以看到, 利用三角形的相似性质,PnP问题转为了一个3D到3D的位姿估计问题

P3P的问题:
1. 只利用三个点的信息,当给定的配对点多于3组时,难以利用更多的信息;
2. 如果数据点存在噪声时,或者匹配是误匹配的情况下,算法失败。

PnP在SLAM问题中的角色:进行相机位姿估计,然后构建最小二乘优化问题对估计值进行调整(Bundle Adjustment, BA)