基于图像语义的可视化同时定位和建图的面向应用程序的移动机器人自主导航解决方案综述 (3)

基于图像语义的可视化同时定位和建图的面向应用程序的移动机器人自主导航解决方案综述

后端:状态估计

Lu等人和Gutmann等人将SLAM问题定义为一共最大后验估计问题,目标是从一组观测(\(Z=\{z_1,\cdots,z_k\}\)带有噪声)中估计一个变量\(X\)(包括机器人姿态和地标位置)。

\(X^*= \underset {X}{\operatorname {arg\,max}} P(Z|X)P(X)\) (1)

等式(1)遵循贝叶斯定理。\(P(Z|X)\)表示状态\(Z\)(给定变量\(X\))的可能性,\(P(X)\)表示变量\(X\)的先验概率,所以后验概率表示为\(P(Z|X)P(X)\)。这个问题一般化为确定一个分配变量\(X^*\),使得\(P(X|Z)\)最小,并进一步确定变量\(X\)。SLAM问题最为重要的答案之一是由Davison等人提出的,他们首先使用扩展卡尔曼滤波器(EKF)进行更新相机和地表点的状态信息。与之不同的是,基于集束优化的非线性优化方法,通过将具有约束变量的全局约束方程进行优化,而不是纯粹的迭代求解EKF,来求解最大后验概率估计问题。相比而言,基于EKF的SLAM方法在处理小范围场景应用的情况下比基于优化方案的SLAM方法具有更高的效率;但是,对于大范围场景应用下,基于过滤的SLAM方法由于需要计算较大的协方差矩阵而造成性能表现欠佳。

开源V-SLAM系统。一般的,V-SLAM系统可以通过相机类型进行分类,包括但不仅限于:单目,双目和RGB-D相机。作为详细的比较,作者坚信,对于一个V-SLAM框架评价的关键点,包括,是否能够稠密建图和回环检测,是否支持大量传感器,是否具备实时处理的性能。重要的是,为了简化目前语义SLAM的设计,许多研究之间参考了完善的V-SLAM框架。

表3进一步总结了它们的特性,包括前端,后端,重定位,回环检测等等相关描述。

基于图像语义的可视化同时定位和建图的面向应用程序的移动机器人自主导航解决方案综述

III.人机环境交互:感知

我们认为在语义SLAM领域中的感知定义应该包含两个方面:对环境的理解和对人的理解。毫无疑问,一个环境模型(也被定义为环境地图)将会在这两个过程中发挥重要作用。

表4主要总结了一些语义地图的研究。

基于图像语义的可视化同时定位和建图的面向应用程序的移动机器人自主导航解决方案综述

语义地图

语义地图在一个宽广的场景下可分类为对象级别和像素级别。以前的研究建立了对象级别的语义地图的原始概念,即将提前建立好的已知对象的3D模型插入到无意义的稀疏点云地图中。很不一样的是,一些研究尝试通过一些传统的工具构造优越的像素级语义地图,比如:SVM(即使SVM一般被用在解决工业中的预测,分类和诊断问题),CRF,并且至今,因为这些工具被认为在对象识别和场景分割方面具有重要作用。但是,大部分情况下,这些有限制的工具不能满足分类的准确性要求。受到深度学习的启发,出现越来越多的基于CNN的对象识别、检测和分割的研究。因此,这些大量的成就为构建更多的像素级语义地图提供了保证。Li和Delaroussi提出了一个方法,即融合目前最先进语义分割的策略(即DeepLab-v2)和V-SLAM框架(大型直接单目,LSD-SLAM)。它的成功在于,通过一个多视单目相机构建一个半稠密的3D语义地图(区别于Mccmac等人的使用RGB-D相机构建的稠密3D语义地图)。值得注意的是,这个融合方案反过来,对于更大范围的2D单视角的语义分割方法有很大的性能提升。明显的,SLAM从本质上提高了语义分割的准确性。

2. 公开问题

时变语义地图。语义地图为高级语义理解打下基础,但是远不能达到满足长期鲁棒定位的使用。一个理想的解决方法,是构建一个时变语义地图,因为一个模型对于所关注场景下的对象的时空关系不能被建立,和后续对象的空间变化(即运动)不能被预测这一事实。因此,我们相信,通过引入时变语义地图有助于长期动态定位。我们也相信,考虑到时空关系的原因,这些时变语义地图的基础就是一些人工智能的方法。据我们所知,目前语义SLAM很少涉及这方面的研究。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zywswd.html