基于图像语义的可视化同时定位和建图的面向应用程序的移动机器人自主导航解决方案综述 (2)

基于图像语义的可视化同时定位和建图的面向应用程序的移动机器人自主导航解决方案综述

本调查的其余部分如下:

陈述了对于语义提取器的详细描述,现代V-SLAM系统的基础架构以及主流的开源算法。

然后,特别关注于语义SLAM的许多独特属性----感知力、鲁棒性和准确性,并分别与人机环境交互,环境适应和可靠的导航有关相结合分析,这些问题将在第三、四、五章节详述。

关注语义SLAM目前面临挑战,尝试寻求这些问题的答案。

给出语义SLAM相关内容的总结。

II. 语义SLAM系统的组件 A.语义提取器

对象检测被认为是CV的一个重要的分支,CV的发展可以初略的分为人工特征机器学习阶段(2001-2013)和学习特征深度学习阶段(2013至今)。区域卷积神经网络(R-CNN)系列属于典型的2-阶段网络,包括R-CNN,fast R-CNN,faster R-CNN,以及最新的mask R-CNN。值得注意的是,最新类型的对象检测算法实现同步完成目标定位和分类任务,而不是首先进行对象的2D定位。具有代表性的Yolo系列算法(已知的最快的语义提取器)采用S×S的网格替代区域建议,并且这些网格的分类类别作为最终检测结果的理想候选结果。一般而言,Yolo系列的检测速度满足一般的实时语义SLAM系统,但是为了更高的准确度,最新的Centernet提供了一个新颖的基于特征点的方法。

为了清晰的描述对象检测网络的发展,按照时间顺序的总览如图3所示。

基于图像语义的可视化同时定位和建图的面向应用程序的移动机器人自主导航解决方案综述

语义分割,在涉及极其复杂的场景情况下,需要一些特殊的关注,并且为了确保鲁棒定位和建图,更好的场景图例,也就是大量对象之间的深度关联挖掘需要进一步考虑。相对比,对象检测适用于粗粒度的场景推理,而语义分割更为普遍,因为它适用于精细的场景处理。类似的,语义分割的发展经历了从“机器学习为基础”到“深度学习为基础”的转变。如今,CNN的引入已经极大的提升了对象分割的精度和效率;因此,对于构建语义SLAM系统的情况,通常首选基于CNN的解决方案。考虑到语义SLAM系统中语义分割的实际应用,需要研究和网络相关的两件事(为了进行语义分割)。一件是采用技术指标(包括准确性和有效性),另一件是应用条件(表明一个网络是否适用于视频分割或者3D图像分割)。这一段主要是描述基于深度学习的语义分割网络,大多遵从上述的思路。

对不同CNN网络进行语义分割的性能对比如表2所示。

基于图像语义的可视化同时定位和建图的面向应用程序的移动机器人自主导航解决方案综述

B.现代V-SLAM系统

考虑到传感器数据和任务级别的流向,一个V-SLAM系统一般包含两个部分:前端和后端。如图所示,视觉里程计和回环检测模块同时接收某些传感器所提供的输入。这里,视觉里程计的功能是提供预先的机器人位姿估计,回环检测模块的功能是提供场景相似度。获得到的机器人位姿或场景相似度信息,作为后续机器人全局优化位姿和地标,以及绘制移动轨迹和环境地图的源信息。数学上,前端任务和后端任务可以被分别抽象为“数据关联”问题和“状态估计”问题。

V-SLAM系统示意如图4所示。

基于图像语义的可视化同时定位和建图的面向应用程序的移动机器人自主导航解决方案综述

前端:数据关联

前端模块在同一图片序列中的不同帧,追踪相同特征(特征点或代表性像素块)的过程被称为“数据关联”。一般而言,早起V-SLAM系统通过特征匹配来处理“数据关联”。显然,对于局部图像特征的描述信息缺失,在很大概率下会导致错误的数据关联,这也就会导致错误的位姿和地标估计。一些关注于减少数据关联中错误的研究(例如:随机样本共识 RANSAC)被提出,但是尚未真正解决问题仍令其不满意。之后的研究者开始在概率论角度解决“数据关联”(也就是, 做出将新特征分配给跟踪序列的软性决定)。关于数据关联在SLAM问题中的表达,Bowman等人是\(D\triangleq Z\{l_k,x_k\}_{k=1}^K\)表达的支持者,这就表明\(Z_k\)(下标\(k\)表示\(k\)th)是独立于\(x_k\)(相机姿态)和\(l_k\)(地标位置)。之后就采用最大估计概率(MLE)来解决\(D\)

概率数据关联充分考虑了特征分配中的不确定性,并最大程度上减少了错误关联,具体如图5所示。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zywswd.html