直接法视觉SLAM研究文献综述

 2022-11-28 20:16:54

在计算机视觉创立之初,人们就想象着有朝一日计算机将和人一样,通过眼睛去观察世界,理解周遭的物体,探索未知的领域——这是个美妙而又浪漫的梦想,吸引了无数的科研人员日夜为之奋斗。我们曾经以为这件事情并不困难,然而进展却远不如预想的那么顺利。我们眼中的花草树木、鸟兽虫鱼,在计算机的“脑袋”中却是那样的不同:它们只是一个个由数字排列而成的矩阵。让计算机理解图像的内容,就像让我们自己理解这些数字一样困难,我们既不了解自己如何理解图像,也不知道计算机该如何理解、探索这个世界。于是我们困惑了许久,直到几十年后的今天,才发现了一点点成功的迹象:通过人工智能(Artificial Intelligence)中的机器学习(Machine Learning)技术,一方面,计算机渐渐能够辨别出物体、人脸、声音、文字——尽管它所用的方式(统计建模)与我们是如此不同。另一方面,SLAM(Simultaneous Localization and Mapping),即同时定位与地图构建,发展了将近30年之后,我们的相机才渐渐开始能够认识到自身的位置,发觉自己在运动——虽然方式还是和人类有巨大的差异。不过,至少研究者们已经成功地搭建出种种实时SLAM系统,有的能够快速跟踪自身位置,有的甚至能够进行实时的三维重建[1]。这件事情确实很困难,但已经有了很大的进展。21世纪以来,以视觉传感器为中心的视觉SLAM技术,在理论和实践上都经历了明显的转变与突破,正逐步从实验室研究迈向市场应用[2]

视觉SLAM通常是指相机作为唯一外部传感器的SLAM。由于相机成本低、轻,很容易放在商品硬件上,广大的应用前景促使着视觉SLAM快速地发展着。按照工作方式的不同,相机可以分为单目相机、双目相机和深度(RGB-D)相机三大类。单目相机只有一个摄像头,双目有两个,而RGB-D的原理较复杂,除了能够采集到彩色图片,还能读出每个像素与相机之间的距离[1]。视觉SLAM也因此可以分为三类:单目视觉SLAM、立体视觉SLAM和RGB-D SLAM。

视觉SLAM算法可根据利用图像的不同信息分为基于特征的SLAM方法和direct SLAM方法。由文献[3]的梳理,早期的单目视觉SLAM是借助于滤波器而实现的[4],利用卡尔曼滤波器(extended Kalman filter, EKF)来实现同时定位与地图创建。之后基于关键帧的单目视觉SLAM逐步发展了起来,其中最具代表性的是parallel tracking and mapping(PTAM)[5],该论文提出了一个简单、有效的提取关键帧的方法,且将定位和构图分为两个任务,并在两个线程上运行。微软公司推出的Kinect相机,能够同时获得图像信息及深度信息,从而简化了三维重建的过程,加上便宜的价格,让基于RGB-D相机的SLAM得到了迅速的发展。文献[6]是最早提出的使用RGB-D相机对室内环境进行三维重建的方法,在彩色图像中提取SIFT特征并在深度图像上查找相应的深度信息。然后使用RANSAC方法对3D特征点进行匹配并计算出相应的刚体运动变换,再以此作为ICP(iterative closest point)的初始值来求出更精确的位姿。文献[7]与文献[6]类似,不同点在于对彩色图像进行的是SURF特征提取,并用ICP对运动变换进行优化,最后使用Hogman位姿图优化方法求出全局最优位姿。

直接的视觉SLAM方法指的是直接对像素点的强度进行操作,避免了特征点的提取,该方法能够使用图像的所有信息。此外,提供更多的环境几何信息,有助于对地图的后续使用,且对特征较少的环境由更高的准确性和鲁棒性[3]

近几年,基于直接法的单目视觉里程计算法才被提出。文献[8]提出的相机定位方法依赖图像的每个像素点,即用稠密的图像对准来进行自身定位,并构建出稠密的3D地图。文献[9]对当前图像构建版稠密inverse深度地图,并使用稠密图像配准法(dense image alignment)计算相机位姿。构建版稠密地图即估计图像中梯度较大的所有像素的深度值,该深度值被表示为高斯分布,且当新的图像到来时,该深度值被更新。文献[10]对每个像素点进行概率的深度测量,有效降低了位姿估计的不确定性。文献[11]提出了一种半直接的单目视觉里程计方法,该方法相比于直接发不是对政府图像进行直接匹配从而获得相机位姿,而是通过在整幅图像中提取的图像块来进行位姿的获取,这样能够增强算法的鲁棒性。为了构建稠密的三维环境地图,Engel等人[12]提出了LSD-SLAM算法(large-scale direct SLAM),相比之前的直接视觉里程计方法,该方法在估计高准确性的相机位姿的同时能够创建大规模的三维环境地图。

文献[13]提出了Kinect融合的方法,该方法通过Kinect获取的深度图像对每帧图像中的每个像素进行最小化距离测量而获得相机位姿,且融合所有深度图像,从而获得全局地图信息。文献[14]使用图像像素点的光度信息和几何信息来构造误差函数,通过最小化误差函数而获得相机位姿,且地图问题被处理为位子图表示。

文献[15]是较好的直接RGB-D SLAM方法,它工作的目标是为解决从RGB-D图象中估计摄像机运动的问题提供快速且准确的方法。通过最小化测光误差,该方法将两个连续的RGB-D帧彼此直接注册。文献[15]使用非线性最小化结合从粗到细的方案来估计摄像机的运动。为了考虑图像数据中的噪声和离群值,文献[15]建议使用鲁棒的误差函数,以减少大残差的影响。此外,文献[15]的公式允许包含一个运动模型,该模型可以基于先验知识,时间滤波或其他传感器(例如IMU)。文献[15]的方法对计算资源有限的机器人很有吸引力,因为它可以在单个CPU内核上实时运行,并且占用的内存很小且恒定。

十几年来,视觉SLAM虽然取得了惊人的发展,但是仅用摄像机作为唯一外部传感器进行同时定位与三维地图重建还是一个很具有挑战性的研究方向,想要实时进行自身定位且构建类似人眼看到的环境地图还有很长的科研路要走。为了弥补视觉信息的不足,视觉传感器与惯性传感器(IMU)、激光等传感器融合,通过传感器之间的互补获得更加理想的结果[3]。此外,为了能在实际环境中进行应用,SLAM的鲁棒性需要很高,从而足够在各种复杂环境下进行准确得分处理,SLAM的计算复杂度也不能太高,从而达到实时效果。

参考文献

[1]高翔等著. 视觉SLAM十四讲:从理论到实践[M]. -2版.-北京:电子工业出版社,2019.8 ISBN 978-7-121-36942-1: 1-2,15.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。