SLAM技术,激光slam和视觉slam

单击上面的3358www.Sina.com/，然后选择善良的飞鸟学视觉或3358www.Sina.com/

重磅干货，第一时间送到正文后|新机愿景

近年来，SLAM技术取得了惊人的发展，进一步的激光SLAM已经成熟应用于各个场景。视觉SLAM在落地应用中虽不及激光SLAM，但也是当前研究的一大热点。今天详细谈谈视觉SLAM的事情吧。

星标

视觉贫民窟主要是基于摄像头进行环境感知工作，而摄像头成本低，容易放在商品硬件上，图像信息丰富，因此视觉贫民窟也备受关注。

目前视觉贫民窟分为单眼、双眼(多眼) RGBD三大类，也有鱼眼、全景等特殊相机，但目前在研究和产品中尚属少数，而且惯性测量器件(Inertial Measurement Unit，IMU ) ) 从实现的难度来看，这三种方法大致分为单眼视觉、双眼视觉、RGBD。

单用途相机SLAM简称为MonoSLAM，可以用一台相机完成SLAM。最大的优点是传感器简单，成本低廉，但同时也存在无法准确获得深度的大问题。

另一方面，由于绝对深度未知，单眼SLAM无法得到机器人的运动轨迹和地图的真实大小。如果同时将轨迹和房间放大两倍，单眼看起来相同，因此单眼SLAM只能估计一个相对深度。另一方面，单眼相机无法从一张图像中得到图像中的物体与自己的相对距离。为了估计这个相对深度，单眼贫民窟必须通过运动中的三角测量来求出摄像机的运动，并估计像素的空间位置。换句话说，它的轨迹和地图只有在摄像机运动后才收敛，摄像机不运动就无法知道像素的位置。同时，相机运动并不是单纯的旋转，给单眼SLAM的应用带来了一些麻烦。

另一方面，双目摄像机与单眼的不同之处在于，立体视在运动时可以估计深度，也可以在静止时估计，消除了单眼视的许多故障。然而，双目或多目摄像机的放置和定位很复杂，其深度范围也受双目基线和分辨率的限制。根据双目图像计算像素距离是非常消耗计算量的事情，现在很多时候在FPGA中进行。

RGBD相机是从2010年左右开始兴起的相机，其最大特点是根据红外结构光和TOF原理，可以直接测量图像中各像素与相机的距离。因此，可以提供比传统相机更丰富的信息，也不需要像单眼和双眼那样费事计算深度。

置顶

1 .传感器数据

在视觉SLAM中主要是照相机图像信息的读取和预处理。有些机器人可能与码盘、惯性传感器等信息的读取同步。

2 .视觉测距仪

视觉测距仪的主要任务是估计相邻图像之间摄像机的运动和局部地图的情况，最简单的是两幅图像之间的运动关系。计算机如何通过图像识别照相机的运动？在图像中，只能看到一个像素。可以看出他们是在照相机的成像面上投影特定空间点的结果。我们必须了解摄像机和空间点之间的几何关系。

Vo (也称为前端)能够根据相邻帧之间的图像来估计摄像机的运动，恢复场景的空间结构，这称为里程表。之所以称为里程表，是因为它只计算相邻时间的移动，与更早的信息没有关联。通过连接相邻时刻的运动，构成机器人的运动轨迹，解决定位问题。另一方面，根据每个时刻的摄像机位置计算出与各像素对应的空间点的位置，则得到地图。

3 .后端优化

后端优化主要是处理slam过程中的噪声问题。任何传感器都有噪声，因此请不仅关注“如何根据图像估计相机的运动”，还关注该估计中有多少噪声。

前端向后端提供要优化的数据和初始值，后端负责整体优化过程。大多数情况下，面临的只是数据，而与这些数据来自何处无关。在视觉slam中，前端和计算视觉的研究领域更为相关，如图像特征提取和匹配等，后端主要是滤波和非线性优化算法。

4 .环回检测

环回检测，也称为闭环检测，是指机器人识别到达场景的能力。如果检测成功，可以明显减小累积误差。环回检测实质上是一种检测观测数据相似性的算法。在视觉贫民窟中，许多系统目前采用成熟的词袋模型(Bag-of-Words，BoW )。单词袋模型对图像中的视觉特征(SIFT、SURF等)进行聚类，制作词典，查找各图包含哪些“单词”。也有研究者运用传统的模式识别方法，将环回检测构建为一个分类问题，训练分类器进行分类。

5 .制图

建筑图主要是根据推算出的轨迹来绘制适应任务要求的地图，在机器人学中，地图的表示主要有网格地图、直接表示法、拓扑地图以及特征点地图四种。特征点地图以点、直线和面等几何特征表示环境，在视觉贫民窟技术中很常见。该地图一般由结合GPS、UWB及摄像机和稀疏方式的vSLAM算法生成，具有数据存储量和运算量相对较少，多见于最初的SLAM算法的优点。

视觉SLAM是什么？
>
大多数视觉SLAM系统的工作方式是通过连续的相机帧，跟踪设置关键点，以三角算法定位其3D位置，同时使用此信息来逼近推测相机自己的姿态。简单来说，这些系统的目标是绘制与自身位置相关的环境地图。这个地图可以用于机器人系统在该环境中导航作用。与其他形式的SLAM技术不同，只需一个3D视觉摄像头，就可以做到这一点。

通过跟踪摄像头视频帧中足够数量的关键点，可以快速了解传感器的方向和周围物理环境的结构。所有视觉SLAM系统都在不断的工作，以使重新投影误差(Reprojection Error)或投影点与实际点之间的差异最小化，通常是通过一种称为Bundle Adjustment(BA)的算法解决方案。vSLAM系统需要实时操作，这涉及到大量的运算，因此位置数据和映射数据经常分别进行Bundle Adjustment，但同时进行，便于在最终合并之前加快处理速度。

视觉SLAM与激光SLAM有什么区别？

在业内，视觉SLAM与激光SLAM谁更胜一筹，谁将成为未来主流趋势这一问题，成为大家关注的热点，不同的人也有不同的看法及见解，以下将从成本、应用场景、地图精度、易用性几个方面来进行详细阐述。

1.成本

从成本上来说，激光雷达普遍价格较高，但目前国内也有低成本的激光雷达解决方案，而VSLAM主要是通过摄像头来采集数据信息，跟激光雷达一对比，摄像头的成本显然要低很多。但激光雷达能更高精度的测出障碍点的角度和距离，方便定位导航。

2.应用场景

从应用场景来说，VSLAM的应用场景要丰富很多。VSLAM在室内外环境下均能开展工作，但是对光的依赖程度高，在暗处或者一些无纹理区域是无法进行工作的。而激光SLAM目前主要被应用在室内，用来进行地图构建和导航工作。

3.地图精度

激光SLAM在构建地图的时候，精度较高，思岚科技的RPLIDAR系列构建的地图精度可达到2cm左右；VSLAM，比如常见的，大家也用的非常多的深度摄像机Kinect，（测距范围在3-12m之间），地图构建精度约3cm；所以激光SLAM构建的地图精度一般来说比VSLAM高，且能直接用于定位导航。

视觉SLAM的地图建立

4.易用性

激光SLAM和基于深度相机的视觉SLAM均是通过直接获取环境中的点云数据，根据生成的点云数据，测算哪里有障碍物以及障碍物的距离。但是基于单目、双目、鱼眼摄像机的视觉SLAM方案，则不能直接获得环境中的点云，而是形成灰色或彩色图像，需要通过不断移动自身的位置，通过提取、匹配特征点，利用三角测距的方法测算出障碍物的距离。

总体来说，激光SLAM相对更为成熟，也是目前最为可靠的定位导航方案，而视觉SLAM仍是今后研究的一个主流方向，但未来，两者融合是必然趋势。

本文来源于：http://www.slamtec.com/cn/News/Detail/237

End

下载1：OpenCV-Contrib扩展模块中文版教程

在「善良的飞鸟学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「善良的飞鸟学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「善良的飞鸟学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”xldwd + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~