上一篇只是对于双目立体视觉做了一个简单的介绍,这里就我在做这个的时候碰到的一些问题做一个梳理。
1.
首先要纠正一下之前一个错误:cvRemap函数只接受灰度图。其实这个函数要求src与dst大小格式通道必须一致就行,并不需要一定为灰度数据。当时下这个结论主要是因为被OpenCV的图像矩阵数据格式搞得很晕,为了先出个结果。后来有了要输出三通道数据的需要,倒是研究了一下OpenCV图像的数据格式。
矩阵元素类型包括了两部分信息,首先是元素数据的类型,还有就是该元素包含的通道个数。
/*Mat_<uchar>对应的是CV_8U,Mat_<uchar>对应的是CV_8U,Mat_<char>对应的是CV_8S,Mat_<int>对应的是CV_32S,Mat_<float>对应的是CV_32F,Mat_<double>对应的是CV_64F*/
#define CV_8U 0
#define CV_8S 1
#define CV_16U 2
#define CV_16S 3
#define CV_32S 4
#define CV_32F 5
#define CV_64F 6
灰度图就用CV_8U,三通道图就用CV_8UC3,像我得出的视差图数据就用CV_16S来存储,三维坐标信息的数据就用CV_32FC3的类型,总之按需求定。
2.
通过双目获取物体的三维信息之后,我的目标是把这个三维信息投影到地面平面上进行分析,所以需要建立空间坐标系与地面平面坐标系之间的转化关系。
由于我只需要一个投影面,并不需要关注这个面是不是就是地面,只需要与地面平行即可,所以并不需要事先测定地面,这样的话建立转化就简单了很多。
- 从左片中取一些地面上的像素点,计算出它们在空间坐标系中的三维坐标,用最小二乘拟合出这些点所在的平面Ax+By+Cz = D;
- 空间坐标系是以左相机光心为原点,视轴为Z轴,基线为X轴(方向指向右相机)的右手系。由于我只要求一个投影平面,坐标系可以任意,不妨取上述拟合平面Ax+By+Cz = D与Z轴的交点为地面平面坐标系的原点o,与X轴的交点作为x轴正半轴上的点,由此可建立一个地面投影面的坐标系。
- 几个坐标点:o(0,0,D);x(
DA ,0,0);Y(-DA,D+DA2B ,0)。可得到几个坐标向量:ox = (DA ,0,-D);oy = (-DA,D+DA2B ,-D);oz = (A,B,C); - 假设空间中有一个点S(Xs,Ys,Zs);向量oS = (Xs,Ys,Zs - D);现在要求S在xoy平面上的投影,记作p。oS在oz上的投影为h =
os⋅oz∣oz∣⋅oz ;所以op = oS - h,得到op之后求它在ox和oy上的投影即可得到投影面上的二维坐标。
这样三维信息就投影到了地面上,可以进行分析了。
3.
我需要把相机拍摄的运动物体(行人)提取出来,目前用的最多的有两种方法:
(1)基于背景建模:
利用背景建模方法,提取出前景运动的目标,在目标区域内进行特征提取,然后利用分类器进行分类,判断是否包含行人;
(2)基于统计学习的方法:
目前行人检测最常用的方法,根据大量的样本构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。
由于当前时间较紧,现阶段只有背景建模提取前景的方法,后续会尝试将两者结合使用。
我用的是最简单的方法,即帧差法,有两种普遍的方法,一种是前后帧相减,一种是三帧法,简要代码如下:
/*前后帧相减*/
VideoCapture video("../camera.avi");
Mat img1, img2, gray1, gray2, grayDiff;
int diff_threshold = 20; //帧差阈值
while(1)
{
video.read(img1);
objectDetector(img1);
cvtColor(img1,gray1,CV_BGR2GRAY);
video.read(img2);
cvtColor(img2,gray2,CV_BGR2GRAY);
subtract(gray1,gray2,grayDiff);
for(int i = 0; i < grayDiff.rows; ++i)
{
for(int j = 0; j < grayDiff.cols; ++j)
{
if( abs(grayDiff.at<uchar>(i,j)) >= diff_threshold )
{
grayDiff.at<uchar>(i,j) = 255;
}
else
{
grayDiff.at<uchar>(i,j) = 0;
}
}
}
imshow("background",gray1);
imshow("zhencha",grayDiff);
char c = cvWaitKey(33);
if(c == 27)
break;
}
/*三帧法*/
VideoCapture video("../camera.avi");
Mat img1, img2, gray1, gray2;
Mat img3, gray3, grayDiff1, grayDiff2;
int diff_threshold = 20; //帧差阈值
while(1)
{
video.read(img1);
video.read(img2);
video.read(img3);
cvtColor(img1,gray1,CV_BGR2GRAY);
cvtColor(img2,gray2,CV_BGR2GRAY);
cvtColor(img3,gray3,CV_BGR2GRAY);
subtract(gray1,gray2,grayDiff1);
subtract(gray2,gray3,grayDiff2);
for(int i = 0; i < grayDiff1.rows; ++i)
{
for(int j = 0; j < grayDiff2.cols; ++j)
{
if( abs(grayDiff1.at<uchar>(i,j)) >= diff_threshold )
{
grayDiff1.at<uchar>(i,j) = 255;
}
else
{
grayDiff1.at<uchar>(i,j) = 0;
}
if( abs(grayDiff2.at<uchar>(i,j)) >= diff_threshold )
{
grayDiff2.at<uchar>(i,j) = 255;
}
else
{
grayDiff2.at<uchar>(i,j) = 0;
}
}
}
bitwise_and(grayDiff1,grayDiff2,grayDiff);//和运算
imshow("background",img2);
imshow("zhencha",grayDiff);
char c = cvWaitKey(33);
if(c == 27)
break;
}
得到前景之后就可以利用之前建立的坐标系转换得到人在地面上的投影,即我需要使用的深度信息。