文 献 综 述
- 研究背景及意义
随着计算机技术的发展,视觉里程计(Visual Odometry,VO)技术得到了快速发展并已运用于机器人、增强现实(Augmented Reality,AR )和人工智能(Artificial Intelligence,AI)等前沿科技领域。视觉里程计技术旨在协助具有视觉传感器的电子设备完成对周围环境的快速感知和设备载体的位姿估计[1],提高电子设备的智能水平,并协助人类完成危险环境作业以及三维动态视景交互等任务。视觉里程计技术可用于单目相机、双目相机及深度相机等不同的视觉传感器,而在基于双目相机的视觉里程计中,由于双目相机可以通过左右相机视差恢复出视觉深度信息,简化了一般视觉里程计技术中的位姿估计以及环境感知问题,相比于单目相机和深度相机,双目相机具有无需初始化,适用范围广等优点,所以双目相机成为视觉里程计中热门的相机。
机器人进入未知环境进行定位和导航是自主化的前提。因为未知环境的复杂性,所以研究仅依靠机器人自身的传感器构建实时地图并进行定位具有重要意义。视觉传感器是机器人中常见的一类传感器,具有精确度高成本低,且数据信息丰富等特点,因此利用视觉传感器来定位成为研究的热点。 鉴于视觉里程计的特点和优势,VO在火星探测器上得到了成功应用,也在公共安全、虚拟现实( VirtualReality, VR)、增强现实等领域凸显出其重要的应用价值。所以视觉里程计具有重要的应用前景。
- 双目视觉里程计的基本原理
目前的视觉里程计有单目和双目之分,而双目视觉里程计较于单目视觉里程计加入了尺度因子,所以通过单次测量就可获得深度,不需要单目视觉里程计中的初始化阶段来恢复路标的景深。因此双目视觉里程计可以通过单次获取的图像恢复出场景的三维结构,更受人们的青睐。由双目视觉原理可知,经过标定后的双目摄像机可以直接恢复欧几里德几何意义下的三维点云数据(依赖与立体匹配)[1]。所以基于双目的视觉里程计更适合大范围大场景的应用。双目视觉里程计的原理是重构出当前时刻摄像机视野中通过极线约束(降低匹配搜索维度)匹配到的特征点的三维坐标,与前一时刻所重构出的特征点进行匹配,剔除误匹配点,使用绝对定向(absolute orientation,eg:umeyama,quaternion )算法估计出6自由度刚体运动参数。如此循环下去即是双目的视觉里程计的一般算法。此外还有一些该算法的改进算法,有的是提取一些关键帧作为运动估计的参考,涉及到关键帧的提取与剔除机制;有的通过融合惯性测量单元(Inertial measurement unit,IMU)数据,或者激光雷达数据,并通过迭代最近点(Itertive Closest Point,ICP)来优化,回环检测等;重构三维特征点用g2o优化再求解运动等等。目前的双目视觉里程计模型如图1所示。双目相机一般由左眼和右眼两个水平放置的相机组成。当然也可以做成上下两个目,但目前的主流双目都是做成左右的。
图1 双目里程计模型
在左右双目的相机中,可以把两个相机都看作针孔相机。它们是水平放置的,意味两个相机的光圈中心都位于 x 轴上。它们的距离称为双目相机的基线(Baseline, 记作 b),是双目相机的重要参数。现在,考虑一个空间点 P,它在左眼和右眼各成一像,记作, 。由于相机基线的存在,这两个成像位置是不同的。理想情况下,左右相机只有在 x 轴上有位移,因此 P 的像也只在 x 轴(对应图像的 u 轴)上有差异。记它在左侧的坐标为,右侧坐标为。那么,它们的几何关系如图1右侧所示。根据三角形P minus;PL minus;PR和P minus;OL minus;OR 的相似关系,有:,稍加整理可得,。这里,d为左右图的横坐标之差,称为视差。根据视差,可以估计一个像素与相机之间的距离,且视差与距离成反比:视差越大,距离越近。同时,由于视差最小为一个像素,于是双目的深度存在一个理论上的最大值,由fb确定,从这里可以看到,当基线越长时,双目能测到的最大距离就会越远;返之,小型双目器件则只能测量很近的距离。
当后端从双目相机获得了图像信息之后,首先是要处理图像,一种方法是特征点法,另一种是直接法,由于精度的要求,本次毕设准备采用特征点法。所以接下来就是提取图像中的关键点,然后再通过匹配双目相机获得的两两关键帧之间的关键点来计算出关键路标点的深度信息并进行存储,经过多次采样后通过光束平差(Bundle Adjustment,BA)法[2],可以将路标点的位置收敛至一个误差允许的范围之内,这样就能通过从每相邻两次关键帧图像中提取路标的位置关系估计出系统的运动轨迹。后期再加入回环检测就能消除一定的累积误差。以上就是双目里程计的基本原理。
- 双目视觉里程计的发展概况
双目立体视觉的开创性工作始于上世纪的60年代中期。美国MIT的Roberts通过从数字图像中提取立方体、 模形体和棱柱体等简单规则多面体的三维结构,并对物体的形状和空间关系进行描述,把过去的简单二维图像分析推广到了复杂的三维场景,标志着立体视觉技术的诞生。不过此时的处理还只停留在简单规则多面体的三维结构,而且也没有引起大范围的重视,视觉里程计的思想也还没有创立。
2004年Nister首次提出VO的概念。还第一次提出并实现了实时长距离鲁棒性的离群点去除的算法流程。Nister在以下几个方面进行了改进。第一,与之前所有的工作相比,他们没有在所有图像帧上跟踪特征,而是单独使用Harris角点检测特征,在特征之间进行匹配,在基于交叉相关跟踪中的优势是可以避免特征偏移;第二,他们没有计算3D到3D云点融合问题的相关运动模型,但计算了3D到2D相机位姿估计问题(这个问题称为“运动估计”)。最后,他们将随机抽样一致性(RANSAC,Random Sample Consensus)算法[3]离群点去除算法整合进运动估计的步骤中。
在单次观测时,需要处理单次观测的图像,目前主要的方法有特征点法和直接法。特征点法通过特征点匹配来跟踪点,计算几何关系得到相机的旋转矩阵(R)和平移向量(t),BA来优化R,t,流程如图2所示。直接法是从光流法演变而来的,是基于灰度不变假设,计算最小光度误差来优化R,t,流程如图3所示。两种方法各有优劣,特征法运动过大时,只要匹配点还在像素内,则不太会引起无匹配,相对于直接法有更好的鲁棒性。但是特征点过多过少都无法正常工作,环境特征少,或者提不出角点(如:渐变色)都无法工作。直接法只要关键点有梯度即可,可以在渐变的环境下工作,不需要计算描述子,不需要匹配特征点,节省了很多计算量,但是当图像无梯度,则对优化结果无贡献,特别如自动驾驶时候的天空,因为是基于灰度不变假设,所以容易受外界光照的影响。于是目前这两种处理方法都有发展。
以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。