点击进入—>3D视觉工坊学习交流群60项基于深度学习的SLAM顶会开源方案汇总(上篇)0. 笔者个人体会深度学习结合SLAM是近年来很热门的研究方向,也因此诞生了很多开源方案。笔者最近在阅读SLAM综述论文“A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence”,该综述参考了255篇SLAM领域的顶会顶刊论文,并且涵盖了VO、建图、特征提取、定位、描述子提取、BA优化、回环、数据集等多个方向,非常全面。本文将对该综述中出现的开源方案进行整理(2018年以后),并附上摘要和论文信息。虽然可能文章并不是最新的,但每项开源工作都是顶会顶刊,参考价值很高。由于方案较多,因此将分上下两篇文章进行介绍。上一节我们介绍了里程计、建图、特征提取、SLAM、闭环检测、数据集相关的开源项目,本节我们将继续介绍定位、描述子提取、BA优化相关的开源项目。一、定位全局定位在具有先验知识的已知场景中检索移动代理的全局位姿。这是通过将查询输入数据与预先构建的2D或3D地图、其他空间参考或之前访问过的场景进行匹配来实现的。它可以用来减少航位推算系统的位姿漂移或解决“被绑架机器人”问题。深度学习用于解决因视图、光照、天气和场景动态、查询数据和地图之间的变化而变得复杂的棘手数据关联问题。31、DeLS-3D标题:DeLS-3D: Deep Localization and Segmentation with a 3D Semantic Map作者:Peng Wang, Ruigang Yang, Binbin Cao, Wei Xu, Yuanqing Lin单位:百度来源:2018 CVPR原文链接:https://arxiv.org/abs/1805.04949代码链接:https://github.com/pengwangucla/DeLS-3D摘要:对于自动驾驶等应用,自定位/相机姿态估计和场景解析是至关重要的技术。在本文中,我们提出了一个统一的框架来同时解决这两个问题。我们设计的独特之处在于传感器融合方案,该方案集成了摄像机视频、运动传感器(GPS/IMU)和3D语义地图,以实现系统的鲁棒性和效率。具体来说,我们首先从消费级GPS/IMU获得初始粗略相机姿态,基于此,可以从3D语义地图渲染标签地图。然后,渲染的标签图和RGB图像被共同馈送到姿态CNN,产生校正的相机姿态。此外,结合时间信息,多层递归神经网络(RNN)进一步部署,以提高姿态精度。最后,基于来自RNN的姿态,我们绘制了一个新的标签图,它与RGB图像一起被馈送到一个产生每个像素语义标签的分段CNN中。为了验证我们的方法,我们建立了一个配准的三维点云和摄像机图像数据集。点云和图像都被语义标注。每个视频帧都有来自高精度运动传感器的地面真实姿态。我们表明,实际上,仅依靠像PoseNet这样的图像进行姿态估计可能会由于街景混乱而失败,因此融合多个传感器是重要的。最后,进行了各种消融研究,证明了所提出系统的有效性。特别地,我们表明场景解析和姿态估计对于实现更健壮和更精确的系统是相互有益的。32、VLocNet标题:Deep Auxiliary Learning for Visual Localization and Odometry作者:Abhinav Valada, Noha Radwan, Wolfram Burgard单位:弗赖堡大学来源:2018 ICRA原文链接:https://arxiv.org/abs/1803.03642代码链接:https://github.com/decayale/vlocnet摘要:定位是机器人自主堆栈中不可或缺的组成部分,使其能够确定自己在环境中的位置,本质上使其成为任何动作执行或规划的先驱。尽管卷积神经网络在视觉定位方面已经显示出有希望的结果,但是它们仍然远远优于最新的基于局部特征的技术。在这项工作中,我们提出了VLocNet,一种新的卷积神经网络结构,用于从连续的单目图像进行6自由度全局姿态回归和里程计估计。我们的多任务模型结合了硬参数共享,因此除了端到端可训练性之外,还很紧凑并支持实时推理。我们提出了一种新的损失函数,它利用辅助学习在训练过程中利用相对姿态信息,从而限制搜索空间以获得一致的姿态估计。我们在室内和室外数据集上评估了我们提出的VLocNet,并表明即使我们的单任务模型也超过了用于全球定位的最新深度架构的性能,同时实现了视觉里程计估计的竞争性能。此外,我们利用我们提出的几何一致性损失进行了广泛的实验评估,这些评估显示了多任务学习的有效性,并证明了我们的模型是第一个与基于SIFT的方法不相上下的深度学习技术,在某些情况下甚至优于基于SIFT的方法。33、AtLoc标题:AtLoc: Attention Guided Camera Localization作者:Bing Wang, Changhao Chen, Chris Xiaoxuan Lu, Peijun Zhao, Niki Trigoni, Andrew Markham单位:牛津大学来源:2019 AAAI原文链接:https://arxiv.org/abs/1909.03557代码链接:https://github.com/BingCS/AtLoc摘要:深度学习在相机定位方面取得了令人印象深刻的成果,但目前的单幅图像技术通常缺乏鲁棒性,导致较大的异常值。在某种程度上,这已经通过序列(多图像)或几何约束方法来解决,这些方法可以学习拒绝动态对象和光照条件,以获得更好的性能。在这项工作中,我们表明注意力可以用来迫使网络专注于更具几何鲁棒性的对象和特征,即使只使用单张图像作为输入,也能在通用基准测试中达到最先进的性能。通过公开的室内和室外数据集提供了广泛的实验证据。通过对显著图的可视化,我们展示了网络如何学习拒绝动态对象,从而产生优越的全局相机位姿回归性能。34、Pyslam标题:To Learn or Not to Learn: Visual Localization from Essential Matrices作者:Qunjie Zhou, Torsten Sattler, Marc Pollefeys, Laura Leal-Taixe单位:慕尼黑工业大学、查尔姆斯理工大学、苏黎世联邦理工学院计算机科学系、微软苏黎世来源:2020 ICRA原文链接:https://arxiv.org/abs/1908.01293代码链接:https://github.com/luigifreda/pyslam摘要:视觉定位是对场景中的摄像机进行估计的问题,是自动驾驶汽车和混合现实等计算机视觉应用的关键组成部分。用于精确视觉定位的最新方法使用特定于场景的表示,导致在将该技术应用于新场景时构建这些模型的开销。最近,已经提出了基于相对姿态估计的基于深度学习的方法,具有容易适应新场景的承诺。然而,已经表明这种方法目前远不如现有技术的方法准确。在本文中,我们有兴趣分析这种行为。为此,我们提出了一个新的框架,视觉定位从相对姿态。在这个框架内使用一个经典的基于特征的方法,我们展示了最先进的性能。用不同层次的学习方法代替经典方法,我们然后找出深度学习方法表现不佳的原因。基于我们的分析,我们对未来的工作提出了建议。35、DFNet标题:DFNet: Enhance Absolute Pose Regression with Direct Feature Matching作者:Shuai Chen, Xinghui Li, Zirui Wang, Victor Adrian Prisacariu单位:牛津大学来源:2022 ECCV原文链接:https://arxiv.org/abs/2204.00559代码链接:https://github.com/activevisionlab/dfnet摘要:我们介绍了一个结合绝对姿态回归(APR)和直接特征匹配的摄像机重定位流水线。通过结合曝光自适应的新视图合成,我们的方法成功地解决了现有的基于光度的方法无法处理的室外环境中的光度失真。通过域不变特征匹配,我们的解决方案使用无标签数据上的半监督学习来提高姿态回归精度。特别地,流水线由两个组件组成:新颖的视图合成器和DFNet。前者合成补偿曝光变化的新视图,后者回归相机姿态并提取鲁棒特征,以缩小真实图像和合成图像之间的域差距。此外,我们介绍了一个在线合成数据生成方案。我们表明,这些方法有效地提高了室内和室外场景中的相机姿态估计。因此,与基于3D结构的方法相比,我们的方法通过超过现有的单图像APR方法多达56%而实现了最先进的精度。36、DGCNet标题:DGC-Net: Dense Geometric Correspondence Network作者:Iaroslav Melekhov, Aleksei Tiulpin, Torsten Sattler, Marc Pollefeys, Esa Rahtu, Juho Kannala单位:阿尔托大学、奥卢大学、苏黎世联邦理工学院、坦桑尼亚科技大学、微软来源:2019 WACV原文链接:https://arxiv.org/abs/1810.08393代码链接:https://github.com/AaltoVision/DGC-Net摘要:本文提出了两个图像之间的密集像素对应估计的挑战。这个问题与光流估计任务密切相关,在光流估计任务中,CNN最近取得了重大进展。虽然光流方法对于小像素平移和有限的外观变化场景产生非常精确的结果,但是它们很难处理我们在这项工作中考虑的强几何变换。在本文中,我们提出了一个由粗到细的基于CNN的框架,该框架可以利用光流方法的优势,并将其扩展到大型变换的情况,提供密集和亚像素精度的估计。它经过合成变换训练,对看不见的真实数据表现出非常好的性能。此外,我们将我们的方法应用于相对相机姿态估计问题,并证明该模型优于现有的密集方法。37、Long-Term Visual Localization标题:Fine-Grained Segmentation Networks: Self-Supervised Segmentation for Improved Long-Term Visual Localization作者:Måns Larsson, Erik Stenborg, Carl Toft, Lars Hammarstrand, Torsten Sattler, Fredrik Kahl单位:查尔姆斯理工大学来源:2019 ICCV原文链接:https://arxiv.org/abs/1908.06387代码链接:https://github.com/maunzzz/fine-grained-segmentation-networks摘要:长期视觉定位是估计给定查询图像在外观随时间变化的场景中的相机姿态的问题。它是实践中的一个重要问题,例如,在自动驾驶中遇到的问题。为了获得对这种变化的鲁棒性,长期定位方法经常使用分段的分割作为不变的场景表示,因为每个场景部分的语义不应受季节和其他变化的影响。然而,由于可用类别的数量有限,这些表示通常不太容易区分。在本文中,我们提出了一种新的神经网络,细粒度分割网络(FGSN),它可以用于提供具有大量标签的图像分割,并可以以自我监督的方式进行训练。此外,我们还展示了如何训练FGSNs在季节变化时输出一致的标签。我们通过大量的实验证明,将我们的FGSNs产生的细粒度分割集成到现有的定位算法中会导致定位性能的实质性改善。38、Understanding_apr标题:Understanding the Limitations of CNN-based Absolute Camera Pose Regression作者:Torsten Sattler, Qunjie Zhou, Marc Pollefeys, Laura Leal-Taixe单位:查尔姆斯理工大学、慕尼黑大学、苏黎世联邦理工学院、微软来源:2019 CVPR原文链接:https://arxiv.org/abs/1903.07504代码链接:https://github.com/tsattler/understanding_apr摘要:视觉定位是在已知场景中精确估计摄像机姿态的任务。这是计算机视觉和机器人技术中的一个关键问题,应用包括自动驾驶汽车、运动结构、SLAM和混合现实。传统上,定位问题是使用3D几何来解决的。最近,基于卷积神经网络的端到端方法变得流行起来。这些方法学习从输入图像直接回归相机姿态。然而,它们不能达到与基于3D结构的方法相同水平的姿态精度。为了理解这种行为,我们开发了一个相机姿态回归的理论模型。我们使用我们的模型来预测姿态回归技术的失败案例,并通过实验来验证我们的预测。此外,我们使用我们的模型来表明姿态回归与通过图像检索的姿态近似更密切相关,而不是与通过3D结构的精确姿态估计更密切相关。一个关键的结果是,目前的方法并不总是优于手工制作的图像检索基线。这清楚地表明,在姿势回归算法准备好与基于结构的方法竞争之前,需要额外的研究。39、HFNet标题:From Coarse to Fine: Robust Hierarchical Localization at Large Scale作者:Paul-Edouard Sarlin, Cesar Cadena, Roland Siegwart, Marcin Dymczyk单位:苏黎世联邦理工学院自主系统实验室、Sevensense机器人股份公司来源:2019 CVPR原文链接:https://arxiv.org/abs/1812.03506代码链接:https://github.com/ethz-asl/hfnet摘要:鲁棒且准确的视觉定位是许多应用的基本能力,例如自动驾驶、移动机器人或增强现实。然而,这仍然是一项具有挑战性的任务,特别是对于大规模的环境和存在显著外观变化的情况。最先进的方法不仅难以应对这种情况,而且对于某些实时应用程序来说,通常过于耗费资源。在本文中,我们提出了HF-Net,一种基于单片CNN的分层定位方法,它同时预测局部特征和全局描述符,用于精确的6自由度定位。我们利用由粗到精的定位范例:我们首先执行全局检索以获得位置假设,然后才在这些候选地点内匹配局部特征。这种分层方法节省了大量的运行时间,并使我们的系统适合实时操作。通过利用学习的描述符,我们的方法在外观的大变化上实现了显著的定位鲁棒性,并在两个具有挑战性的大规模定位基准上建立了新的艺术状态。40、InLoc标题:InLoc: Indoor Visual Localization with Dense Matching and View Synthesis作者:Hajime Taira, Masatoshi Okutomi, Torsten Sattler, Mircea Cimpoi, Marc Pollefeys, Josef Sivic, Tomas Pajdla, Akihiko Torii单位:东京工业大学、苏黎世联邦理工学院计算机科学系来源:2018 CVPR原文链接:https://arxiv.org/abs/1803.10368代码链接:https://github.com/HajimeTaira/InLoc_demo摘要:我们试图预测查询照片相对于大型室内3D地图的6自由度(6DoF)姿态。这项工作的贡献有三个方面。首先,我们发展了一种新的针对室内环境的大规模视觉定位方法。该方法沿着三个步骤进行:(I)候选姿态的有效检索,其确保大规模环境的可伸缩性,(ii)使用密集匹配而不是局部特征来处理无纹理室内场景的姿态估计,以及(iii)通过虚拟视图合成来处理视点、场景布局和遮挡器的显著变化的姿态验证。第二,我们收集一个新的数据集,该数据集具有用于大规模室内定位的参考6自由度姿态。查询照片由移动电话在不同于参考3D地图的时间捕获,从而呈现真实的室内定位场景。第三,在这个新的挑战性数据上,我们证明了我们的方法明显优于当前最先进的室内定位方法。41、CPF_Localization标题:Cascaded Parallel Filtering for Memory-Efficient Image-Based Localization作者:Wentao Cheng, Weisi Lin, Kan Chen, Xinfeng Zhang单位:南洋理工大学、中国科学院大学来源:2019 ICCV原文链接:https://arxiv.org/abs/1908.06141代码链接:https://github.com/wentaocheng-cv/cpf_localization摘要:基于图像的定位(IBL)旨在估计给定查询图像的6自由度相机姿态。可以从查询图像和运动结构(SfM)模型之间的2D-3D匹配来计算相机姿态。尽管最近在IBL方面取得了进展,但仍然很难同时解决大型SfM模型的内存消耗和匹配模糊性问题。在本文中,我们提出了一种级联并行过滤方法,该方法利用特征、可见性和几何信息来过滤二值特征表示下的错误匹配。核心思想是,我们将具有挑战性的过滤任务分成两个并行任务,然后为最终过滤导出辅助相机姿态。一个任务集中于保留潜在的正确匹配,而另一个任务集中于获得高质量的匹配,以便于随后更强大的过滤。此外,我们提出的方法通过引入质量感知的空间重构方法和主焦距增强的姿态估计方法来提高定位精度。在真实数据集上的实验结果表明,我们的方法在节省内存的情况下获得了极具竞争力的定位性能。42、LessMore标题:Learning Less is More - 6D Camera Localization via 3D Surface Regression作者:Eric Brachmann, Carsten Rother单位:海德堡大学来源:2018 CVPR原文链接:https://arxiv.org/abs/1711.10228代码链接:https://github.com/vislearn/LessMore摘要:自动驾驶和增强现实等热门研究领域重新引起了人们对基于图像的摄像机定位的兴趣。在这项工作中,我们解决的任务是在一个给定的三维环境中从一个单一的RGB图像预测6D相机的姿态。随着神经网络的出现,以前的工作要么学习了整个相机定位过程,要么学习了相机定位流水线的多个组件。我们的主要贡献是证明和解释学习这个管道的单个组件就足够了。该组件是用于密集回归所谓场景坐标的全卷积神经网络,定义了输入图像和3D场景空间之间的对应关系。神经网络被预加到新的端到端可训练流水线上。我们的系统是高效的、高度准确的、训练健壮的,并且展示出杰出的泛化能力。在室内和室外数据集上,它始终超越了最先进的水平。有趣的是,我们的方法甚至在训练期间不利用场景的3D模型也超过了现有技术,因为网络能够仅从单视图约束中自动发现3D场景几何形状。43、ESAC标题:Expert Sample Consensus Applied to Camera Re-Localization作者:Eric Brachmann, Carsten Rother单位:海德堡大学来源:2019 ICCV原文链接:https://arxiv.org/abs/1908.02484代码链接:https://github.com/vislearn/esac摘要:将模型参数拟合到一组噪声数据点是计算机视觉中的常见问题。在这项工作中,我们将6D相机姿态拟合到2D输入图像和已知3D环境之间的一组噪声对应关系。我们使用神经网络从图像中估计这些对应关系。由于对应关系通常包含异常值,我们利用稳健的估计器,如随机样本一致性(RANSAC)或可微分RANSAC (DSAC)来拟合姿态参数。当问题域,例如所有2D-3D对应的空间很大或不明确时,单个网络不能很好地覆盖该域。专家混合(MoE)是一种流行的策略,用于在一组专门的网络(即所谓的专家)之间划分问题域,其中门控网络决定哪个专家负责给定的输入。在这项工作中,我们介绍了专家样本共识(ESAC),整合了DSAC在一个MoE。我们的主要技术贡献是一个有效的方法来训练ESAC联合和端到端。我们通过实验证明,ESAC比竞争方法更好地处理了两个现实世界的问题,即可伸缩性和模糊性。我们将ESAC应用于将简单的几何模型拟合到合成图像中,以及用于困难的真实数据集的摄像机重新定位。44、KFNet标题:KFNet: Learning Temporal Camera Relocalization using Kalman Filtering作者:Lei Zhou, Zixin Luo, Tianwei Shen, Jiahui Zhang, Mingmin Zhen, Yao Yao, Tian Fang, Long Quan单位:香港科技大学、清华大学、珠峰创新科技来源:2020 CVPR oral原文链接:https://arxiv.org/abs/2003.10629代码链接:https://github.com/zlthinker/KFNet摘要:与聚焦于静止图像的一次性重新定位相反,时间相机重新定位估计相对于序列中每个视频帧的姿态。即使已经考虑了时间依赖性,当前的时间重定位方法在准确性方面仍然普遍不如最先进的一次性方法。在这项工作中,我们改进了时间重定位方法,使用一种网络结构,结合卡尔曼滤波(KFNet)进行在线摄像机重定位。特别地,KFNet将场景坐标回归问题扩展到时域,以便递归地建立用于姿态确定的2D和3D对应。网络架构设计和损耗公式是基于贝叶斯学习环境中的卡尔曼滤波。在多个重定位基准上的大量实验表明,KFNet的高精度在一次性重定位和时态重定位方法中均处于领先地位。45、Dense-Scene-Matching标题:Learning Camera Localization via Dense Scene Matching作者:Shitao Tang, Chengzhou Tang, Rui Huang, Siyu Zhu, Ping Tan单位:西蒙·弗雷泽大学、阿里巴巴人工智能实验室来源:2021 CVPR原文链接:https://arxiv.org/abs/2103.16792代码链接:https://github.com/Tangshitao/Dense-Scene-Matching摘要:摄像机定位旨在从RGB图像中估计6自由度摄像机姿态。传统方法检测和匹配查询图像和预先构建的3D模型之间的兴趣点。最近基于学习的方法将场景结构编码到特定的卷积神经网络(CNN)中,因此能够从RGB图像中预测密集坐标。然而,由于网络容量有限,它们中的大多数需要重新训练或重新适应新的场景,并且难以处理大规模场景。我们提出了一种使用密集场景匹配(DSM)的场景不可知摄像机定位的新方法,其中在查询图像和场景之间构建了代价体积。成本体积和相应的坐标由CNN处理以预测密集坐标。相机姿态可以通过PnP算法求解。此外,我们的方法可以扩展到时间域,这导致在测试期间额外的性能提升。在7scenes和Cambridge benchmark上,我们的场景无关方法获得了与现有场景相关方法(如KFNet)相当的准确性。这种方法也明显优于最先进的场景不可知的密集坐标回归网络SANet。二、描述子提取描述子提取其实也是定位问题,主要是用于在图像中进行信息检索和匹配。传统手工描述子的问题同样在于对光照和视角变化不鲁棒,集中于学习用于关键点检测的可重复显著图和在检测到的关键点位置学习描述子,可以在很大程度上提高鲁棒性。46、Hierarchical_Loc标题:Leveraging Deep Visual Descriptors for Hierarchical Efficient Localization作者:Paul-Edouard Sarlin, Frédéric Debraine, Marcin Dymczyk, Roland Siegwart, Cesar Cadena单位:苏黎世联邦理工学院自主系统实验室来源:2018 CoRL原文链接:https://arxiv.org/abs/1809.01019代码链接:https://github.com/ethz-asl/hierarchical_loc摘要:许多机器人应用需要精确的姿态估计,尽管在大的和变化的环境中操作。这可以通过视觉定位来解决,使用预先计算的周围环境的3D模型。然后,姿态估计相当于使用局部描述符来寻找查询图像中的2D关键点和模型中的3D点之间的对应关系。然而,机器人平台的计算能力通常有限,这使得这项任务在大规模环境中具有挑战性。二进制特征描述符显著加速了这种2D-3D匹配,并且已经在机器人社区中变得流行,但是也严重削弱了对感知混叠以及视点、照明和场景结构的变化的鲁棒性。在这项工作中,我们建议利用深度学习的最新进展来执行有效的分层定位。我们首先使用学习到的图像范围的全局描述符在地图级别进行定位,然后根据仅在候选位置计算的2D-3D匹配来估计精确的姿态。这限制了定位搜索,从而允许有效地利用通常在资源受限的设备上被忽略的强大的非二进制描述符。我们的方法在流行的移动平台上实时运行的同时,带来了最先进的定位性能,为机器人研究开辟了新的前景。47、Neighbourhood Consensus Networks标题:Neighbourhood Consensus Networks作者:Ignacio Rocco, Mircea Cimpoi, Relja Arandjelović, Akihiko Torii, Tomas Pajdla, Josef Sivic单位:东京工业大学来源:2018 NeurIPS原文链接:https://arxiv.org/abs/1810.10510代码链接:https://github.com/ignacio-rocco/ncnet摘要:我们解决了在一对图像之间寻找可靠的密集对应的问题。这是一项具有挑战性的任务,因为相应的场景元素之间存在明显的外观差异,并且重复模式会产生歧义。这项工作的贡献有三个方面。首先,受使用半局部约束消除特征匹配歧义的经典思想的启发,我们开发了端到端可训练卷积神经网络架构,该架构通过分析一对图像之间所有可能对应的4D空间中的邻域一致性模式来识别空间一致匹配的集合,而不需要全局几何模型。其次,我们证明了该模型可以在弱监督下以匹配和非匹配图像对的形式被有效地训练,而不需要昂贵的点对点对应的手动注释。第三,我们展示了所提出的邻域一致性网络可以应用于一系列匹配任务,包括类别级和实例级匹配,在PF Pascal数据集和InLoc室内视觉定位基准上获得了最先进的结果。48、R2D2标题:R2D2: Repeatable and Reliable Detector and Descriptor作者:Jerome Revaud, Philippe Weinzaepfel, César De Souza, Noe Pion, Gabriela Csurka, Yohann Cabon, Martin Humenberger单位:NAVER LABS Europe来源:2019 arXiv原文链接:https://arxiv.org/abs/1906.06195代码链接:https://github.com/naver/kapture摘要:兴趣点检测和局部特征描述是许多计算机视觉应用中的基本步骤。这些任务的经典方法是基于检测然后描述的范例,其中使用单独的手工方法首先识别可重复的关键点,然后用局部描述符来表示它们。用度量学习损失训练的神经网络最近赶上了这些技术,集中于学习用于关键点检测的可重复显著图和在检测到的关键点位置学习描述符。在这项工作中,我们认为显著区域不一定是有区别的,因此会损害描述的性能。此外,我们认为,描述符应该只在能够以高置信度执行匹配的区域中学习。因此,我们建议联合学习关键点检测和描述以及局部描述符区分度的预测器。这使我们能够避免模糊的区域,并导致可靠的关键点检测和描述。我们的检测和描述方法经过自我监督训练,可以同时输出稀疏、可重复和可靠的关键点,在HPatches数据集上优于最先进的检测器和描述符。它还在最近发布的亚琛日夜定位数据集上创造了一项记录。49、ASLFeat标题:ASLFeat: Learning Local Features of Accurate Shape and Localization作者:Zixin Luo, Lei Zhou, Xuyang Bai, Hongkai Chen, Jiahui Zhang, Yao Yao, Shiwei Li, Tian Fang, Long Quan单位:香港科技大学、清华大学、珠峰创新科技来源:2020 CVPR原文链接:https://arxiv.org/abs/2003.10071代码链接:https://github.com/lzx551402/ASLFeat摘要:这项工作的重点是减轻局部特征检测器和描述符的联合学习的两个限制。第一,估计局部形状(比例、方向等)的能力在密集特征提取过程中经常被忽略,而形状感知对于获得更强的几何不变性至关重要。第二,检测到的关键点的定位精度不足以可靠地恢复相机几何形状,这已经成为诸如3D重建等任务中的瓶颈。在本文中,我们提出了一个难题,通过三个轻量级但有效的修改来缓解上述问题。首先,我们求助于可变形卷积网络来密集地估计和应用局部变换。其次,我们利用固有的特征层次来恢复空间分辨率和低层细节,以实现精确的关键点定位。最后,我们使用峰值测量来关联特征响应,并得出更具指示性的检测分数。每项修改的效果都经过了彻底的研究,并且在各种实际场景中进行了广泛的评估。最新的结果表明了我们方法的优越性。50、NGRANSAC标题:Neural-Guided RANSAC: Learning Where to Sample Model Hypotheses作者:Eric Brachmann, Carsten Rother单位:海德堡大学来源:2019 ICCV原文链接:https://arxiv.org/abs/1905.04132代码链接:https://github.com/vislearn/ngransac摘要:我们提出了神经引导的RANSAC (NG-RANSAC ),它是经典RANSAC算法的一个扩展。NG-RANSAC使用先验信息来改进模型假设搜索,增加找到无离群点最小集的机会。以前的工作使用启发式边信息,如手工制作的描述符距离来指导假设搜索。相比之下,我们以有原则的方式学习假设搜索,这让我们在训练期间优化任意的任务损失,导致经典计算机视觉任务的巨大改进。我们提出了NG-RANSAC的两个进一步的扩展。首先,使用内部计数本身作为训练信号允许我们以自我监督的方式训练神经引导。其次,我们将神经引导与可微RANSAC相结合来构建神经网络,该网络集中于输入数据的某些部分,并使输出预测尽可能好。我们在一系列计算机视觉任务上评估了NG-RANSAC,即极线几何估计、水平线估计和相机重新定位。与最先进的稳健估计器(包括最近学习的估计器)相比,我们获得了更好或更具竞争力的结果。51、Image-Matching-Benchmark标题:Learning to Find Good Correspondences作者:Kwang Moo Yi, Eduard Trulls, Yuki Ono, Vincent Lepetit, Mathieu Salzmann, Pascal Fua单位:维多利亚大学视觉计算组、洛桑联邦理工学院计算机视觉实验室来源:2018 CVPR oral原文链接:https://arxiv.org/abs/1711.05971代码链接:https://github.com/ubc-vision/image-matching-benchmark摘要:我们开发了一个深度架构来学习寻找宽基线双目的良好对应。给定一组假定的稀疏匹配和相机固有特性,我们以端到端的方式训练我们的网络,以将对应标记为内点或外点,同时使用它们来恢复由本质矩阵编码的相对姿态。我们的架构是基于一个多层感知器在像素坐标上操作,而不是直接在图像上操作,因此简单而小巧。我们引入了一种新的归一化技术,称为上下文归一化,它允许我们在向每个数据点注入全局信息的同时单独处理每个数据点,并且还使网络对于对应关系的顺序不变。我们在多个具有挑战性的数据集上的实验表明,我们的方法能够在很少的训练数据的情况下大幅提高技术水平。52、Log-Polar-Descriptors标题:Beyond Cartesian Representations for Local Descriptors作者:Patrick Ebel, Anastasiia Mishchuk, Kwang Moo Yi, Pascal Fua, Eduard Trulls单位:洛桑联邦理工学院计算机视觉实验室、维多利亚大学视觉计算小组、谷歌瑞士来源:2019 ICCV原文链接:https://arxiv.org/abs/1908.05547代码链接:https://github.com/cvlab-epfl/log-polar-descriptors摘要:用于学习局部面片描述符的主要方法依赖于小图像区域,其尺度必须由关键点检测器先验地正确估计。换句话说,如果两个补片不一致,它们的描述符就不匹配。经常用来缓解这个问题的策略是在对数极坐标区域上“汇集”像素特征,而不是规则间隔的区域。相比之下,我们建议用对数极坐标采样方案直接提取“支持区域”。我们表明,通过同时对该点的邻近区域进行过采样和对远离该点的区域进行欠采样,这为我们提供了更好的表示。我们证明了这种表示特别适合于学习具有深度网络的描述符。与以前相比,我们的模型可以在更广的范围内匹配描述符,还可以利用更大的支持区域,而不会受到遮挡的影响。我们在三个不同的数据集上报告了最新的结果。53、LF-Net标题:LF-Net: Learning Local Features from Images作者:Yuki Ono, Eduard Trulls, Pascal Fua, Kwang Moo Yi单位:索尼来源:2018 NIPS原文链接:https://arxiv.org/abs/1805.09662代码链接:https://github.com/vcg-uvic/lf-net-release摘要:我们提出了一种新颖的深度架构和训练策略,使用图像集合从零开始学习局部特征管道,而不需要人工监督。为此,我们利用深度和相对相机姿态线索来创建网络应该在一幅图像上实现的虚拟目标,为另一幅图像提供网络的输出。虽然这个过程本质上是不可微的,但我们证明了我们可以通过将网络限制在一个分支来优化两个分支的设置,同时保持另一个分支的可微性。我们在室内和室外数据集上训练我们的方法,前者使用来自3D传感器的深度数据,后者使用来自现成的运动结构解决方案的深度估计。我们的模型在两个数据集上的稀疏特征匹配方面都优于最先进的技术,同时对于QVGA图像以60+ fps运行。54、LCD标题:LCD: Learned Cross-Domain Descriptors for 2D-3D Matching作者:Quang-Hieu Pham, Mikaela Angelina Uy, Binh-Son Hua, Duc Thanh Nguyen, Gemma Roig, Sai-Kit Yeung单位:新加坡技术与设计大学、斯坦福大学、东京大学来源:2020 AAAI Oral原文链接:https://arxiv.org/abs/1911.09326代码链接:https://github.com/hkust-vgd/lcd摘要:在这项工作中,我们提出了一种新的方法来学习局部跨领域的2D图像和三维点云匹配描述符。我们提出的方法是一种双自动编码器神经网络,它将2D和3D输入映射到一个共享的潜在空间表示中。我们表明,共享嵌入中的这种局部跨域描述符比那些从2D和3D域中的单独训练中获得的描述符更具区分性。为了促进训练过程,我们通过从公开可用的RGB-D场景中收集大约140万个具有各种照明条件和设置的2D-3D对应来建立新的数据集。我们的描述符在三个主要实验中进行评估:2D-3D匹配、跨域检索和稀疏到密集深度估计。实验结果证实了我们的方法的鲁棒性以及它的竞争性能,不仅在解决跨领域的任务,而且能够推广到解决单独的2D和3D任务。55、PointNetVLAD标题:PointNetVLAD: Deep Point Cloud Based Retrieval for Large-Scale Place Recognition作者:Mikaela Angelina Uy, Gim Hee Lee单位:新加坡国立大学来源:2018 CVPR原文链接:https://arxiv.org/abs/1804.03492代码链接:https://github.com/mikacuy/pointnetvlad摘要:与基于图像的检索不同,基于点云的检索仍然是一个未被探索和解决的问题。这很大程度上是由于从点云中提取局部特征描述符的困难,这些局部特征描述符随后可以被编码成用于检索任务的全局描述符。在本文中,我们提出了PointNetVLAD,其中我们利用深度网络最近的成功来解决用于地点识别的基于点云的检索。具体来说,我们的PointNetVLAD是现有PointNet和NetVLAD的组合/修改,它允许端到端的训练和推理,以从给定的3D点云中提取全局描述符。此外,我们提出了“惰性三元组和四元组”损失函数,可以实现更具区分性和可推广性的全局描述符来处理检索任务。我们为基于点云检索的地点识别创建了基准数据集,在这些数据集上的实验结果表明了我们的PointNetVLAD的可行性。56、PCAN标题:PCAN: 3D Attention Map Learning Using Contextual Information for Point Cloud Based Retrieval作者:Wenxiao Zhang, Chunxia Xiao单位:武汉大学来源:2019 CVPR原文链接:https://arxiv.org/abs/1904.09793代码链接:https://github.com/XLechter/PCAN摘要:基于点云检索的地点识别是视觉领域的一个新兴问题。主要的挑战是如何找到一种有效的方法将局部特征编码成一个有区别的全局描述符。本文提出了一种点上下文注意网络(PCN ),它可以基于点上下文预测每个局部点特征的重要性。我们的网络使得在聚集本地特征时能够更加关注与任务相关的特征。在各种基准数据集上的实验表明,所提出的网络可以提供比当前最先进的方法更好的性能。57、D3Feat标题:D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features作者:Xuyang Bai, Zixin Luo, Lei Zhou, Hongbo Fu, Long Quan, Chiew-Lan Tai单位:香港科技大学、香港城市大学来源:2020 CVPR原文链接:https://arxiv.org/abs/2003.03164代码链接:https://github.com/XuyangBai/D3Feat摘要:成功的点云配准通常依赖于通过区别性3D局部特征稳健地建立稀疏匹配。尽管基于学习的3D特征描述符发展很快,但是很少关注3D特征检测器的学习,更少关注两个任务的联合学习。在本文中,我们利用3D点云的3D完全卷积网络,并提出了一种新颖实用的学习机制,该机制密集地预测每个3D点的检测分数和描述特征。特别地,我们提出了一种关键点选择策略,该策略克服了三维点云的固有密度变化,并进一步提出了一种在训练期间由动态特征匹配结果指导的自监督检测器损失。最后,通过在3DMatch和KITTI数据集上的测试,我们的方法在室内和室外场景上都取得了很好的效果,并且在ETH数据集上表现出了很强的泛化能力。对于实际应用,我们表明,通过采用可靠的特征检测器,采样较少数量的特征就足以实现精确和快速的点云对齐。三、 优化SLAM估计在长期运行过程中会受到累积误差漂移的影响。为了解决这个问题,传统SLAM算法构建位姿图,将相机姿势或场景特征表示为图节点,这些节点通过边(由传感器测量)连接以约束姿势。这种基于图的公式可以进行优化,以确保图节点和边缘的全局一致性。在深度学习时代,深度神经网络擅长提取特征,构建从观察到姿势和场景表示的函数。但与经典SLAM中各种经过充分研究的解决方案相比,全局优化深度预测的探索不足。58、BA-Net标题:BA-Net: Dense Bundle Adjustment Network作者:Chengzhou Tang, Ping Tan单位:西蒙·弗雷泽大学来源:2019 ICLR原文链接:https://arxiv.org/abs/1806.04807代码链接:https://github.com/frobelbest/BANet摘要:介绍了一种通过特征度量束平差(BA)解决运动结构(SfM)问题的网络体系结构,该网络体系结构以特征度量误差的形式明确地实施多视图几何约束。整个流水线是可微分的,因此网络可以学习使BA问题更易处理的适当特征。此外,这项工作介绍了一种新的深度参数化恢复密集的每像素深度。该网络首先根据输入图像生成几个基本深度图,并通过特征度量BA将最终深度优化为这些基本深度图的线性组合。基础深度图生成器也是通过端到端训练来学习的。整个系统很好地结合了领域知识(即硬编码的多视图几何约束)和深度学习(即特征学习和基础深度图学习),以解决具有挑战性的密集SfM问题。大规模真实数据上的实验证明了该方法的有效性。59、DCP标题:Deep Closest Point: Learning Representations for Point Cloud Registration作者:Yue Wang, Justin M. Solomon单位:麻省理工学院来源:2019 ICCV原文链接:https://arxiv.org/abs/1905.03304代码链接:https://github.com/WangYueFt/dcp摘要:点云配准是计算机视觉应用于机器人、医学成像等领域的一个关键问题。这个问题涉及到从一个点云到另一个点云的刚性转换,以便它们对齐。迭代最近点(ICP)及其变体为此任务提供了简单且易于实现的迭代方法,但是这些算法可能收敛到虚假的局部最优。为了解决ICP流水线中的局部最优和其他困难,我们受计算机视觉和自然语言处理中的最新技术的启发,提出了一种基于学习的方法,名为深度最近点(DCP)。我们的模型由三部分组成:一个点云嵌入网络,一个与指针生成层相结合的基于注意力的模块,用于近似组合匹配,以及一个可微奇异值分解(SVD)层,用于提取最终的刚性变换。我们在ModelNet40数据集上端到端地训练我们的模型,并在几个设置中显示它比ICP、其变体(例如,Go-ICP、FGR)和最近提出的基于学习的方法PointNetLK执行得更好。除了提供最先进的注册技术,我们还评估了我们学习的特征转移到看不见的物体的适用性。我们还提供了我们的学习模型的初步分析,以帮助理解特定领域和/或全局特征是否有助于刚性注册。60、DeepTAM标题:DeepTAM: Deep Tracking and Mapping with Convolutional Neural Networks作者:Huizhong Zhou; Benjamin Ummenhofer; Thomas Brox单位:弗赖堡大学来源:2020 IJCV原文链接:https://lmb.informatik.uni-freiburg.de/Publications/2019/ZUB19a/代码链接:https://github.com/lmb-freiburg/deeptam摘要:我们提出了一个基于密集关键帧的摄像机跟踪和深度图估计的系统,它是完全学习的。对于跟踪,我们估计当前相机图像和合成视点之间的小姿态增量。这个公式大大简化了学习问题,并减轻了相机运动的数据集偏差。此外,我们表明,产生大量的姿态假设导致更准确的预测。对于制图,我们在以当前深度估计为中心的成本体积中积累信息。然后,映射网络结合成本体和关键帧图像来更新深度预测,从而有效地利用深度测量和基于图像的先验。我们的方法用很少的图像产生最先进的结果,并且对于有噪声的相机姿态是鲁棒的。我们证明了我们的6自由度跟踪的性能与RGB-D跟踪算法相竞争。我们优于强经典和深度学习驱动的密集深度算法。四、 总结到这里,SLAM综述论文“A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence”中的开源方案就整理结束了,60项开源项目基本都是顶会顶刊。由于SLAM领域下沉速度非常快,因此笔者并没有总结2017年以前的方案。同时,也没有整理单目深度估计方向的方案(SC-Depth是因为它设计了伪RGBD),原因主要是单目深度估计本身就是一个非常庞大的课题,与SLAM的关系又是那么的若即若离。其实看完这些开源方案,感觉深度学习在SLAM的各个领域都已经有很大进展了。但每种方案又有其各自的应用场景和限制,因此读者需要根据自己的实际应用场景,有针对的选择、复现、优化开源方案。
本文仅做学术分享,如有侵权,请联系删文。
点击进入—>3D视觉工坊学习交流群
干货下载与学习
(资料图片仅供参考)
后台回复:巴塞罗那自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件
后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf
后台回复:3D视觉课程,即可学习3D视觉领域精品课程
3D视觉工坊精品课程官网:3dcver.com
1.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)2.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进3.国内首个面向工业级实战的点云处理课程4.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解5.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦6.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化7.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
8.从零搭建一套结构光3D重建系统[理论+源码+实践]
9.单目深度估计方法:算法梳理与代码实现10.自动驾驶中的深度学习模型部署实战11.相机模型与标定(单目+双目+鱼眼)12.重磅!四旋翼飞行器:算法与实战13.ROS2从入门到精通:理论与实战14.国内首个3D缺陷检测教程:理论、源码与实战15.基于Open3D的点云处理入门与实战教程16.透彻理解视觉ORB-SLAM3:理论基础+代码解析+算法改进
重磅!粉丝学习交流群已成立
交流群主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、ORB-SLAM系列源码交流、深度估计、TOF、求职交流等方向。扫描以下二维码,添加小助理微信(dddvisiona),一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉+ 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。▲长按加微信群或投稿,微信号:dddvisiona
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,6000+星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看,3天内无条件退款高质量教程资料、答疑解惑、助你高效解决问题觉得有用,麻烦给个赞和在看~
关键词:
最先进的
神经网络
计算机视觉