(2秒带你相识)庄闲和最新版9.14.431.2412

CVPR 2026｜DROID-W：：复杂室外动态场景，也能不变SLAM

图1：：给定肆意动态视频，DROID-W 可能估计正确的动态点云，相机位姿，以及动态不确定性。。

论文标题：：DROID-SLAM in the Wild论文：：https://arxiv.org/pdf/2603.19076项目主页：：https://moyangli00.github.io/droid-w代码：：https://github.com/MoyangLi00/DROID-W数据集：：https://cvg-data.inf.ethz.ch/DROID-W作者单元：：苏黎世联邦理工，微软

SLAM 在自动驾驶、、机械人、、AR/VR 甚至具身智能系统中都是至关重要的环节，它决定了算法能否在一个陌生环境中一壁“看懂世界”，一壁“知晓自己在哪”。。

最近，苏黎世联邦理工与微软的钻研团队提出了 DROID-W：：一种基于动态不确定性感知的浓密可微 Bundle Adjustment（BA）的动态 SLAM 框架。。该工作在 RTX 5090 上能够达到～30 FPS 的及机遇能，即将正式颁发于 CVPR 2026。。并且，该工作提出的动态不确定性感知模？槟芄患床寮从玫乩玫蕉嘀 SLAM 框架中，有效提升其在真实动态环境中的机能。。

传统 SLAM 困境：：为什么现有步骤不通用

传统 SLAM 系统多数基于静态场景的如果，然而在真实世界中，行人穿梭、、车辆驶过、、树影晃悠、、反光玻璃……这些看似再日常不外的成分，城市突破“静态场景”如果，进而导致严重的跟踪漂移，建图谬误。。从前的动态 SLAM 系统往往依赖于动态物体语意宰割 / 检测等先验移除动态物体，但需提前预知动态物体类别，严重限度了其在真实物理世界的宽泛利用。；；；诓蝗范ㄐ愿兄亩 SLAM 规划 WildGS-SLAM 依赖于高质量的动态场景高斯建图来估计动态不确定性，但真实环境中的建图面对巨大挑战，严重限度了其机能。。

与好多依赖预约义动态类别、、语义宰割先验或静态场景建图的步骤分歧，DROID-W 选择了一条更“底层”的路线：：不去预设什么器材会动，不必要成立高质量静态场景，而是让系统自己从多视角观测中鉴别哪些区域不成靠，并在优化时自动降低这些区域的影响。。真正实现了让单目 SLAM 系统合用于“顺手拍”的真实动态场景。。

让不确定性进入 BA，动态区域不再“拖后腿”

图2: DROID-W 系统架构。。系统从序列输入的图片中首先选择关键帧，用于提取 DINO 特点，DROID 特点并估计单目深度图。。DROID 特点继而被送入 ConvGRU 估计对应像素，基于 BA 优化相机位姿和深度。。DINO 特点和优化后的位姿，深度被用于优化像素级动态不确定性。。两优化交替进行，最终输出动态点云和正确的相机轨迹。。

DROID-SLAM 是经典的将深度学习与优化优雅结合的 SLAM 框架，其通过浓密可微 BA 持续更新相机位姿和场景结构。。但在动态场景里，传统 BA 默认的刚体活动关系被突破，谬误残差会严重影响侵扰优化方向与正确性。。

基于此，DROID-W 的关键改进，就是把“动态带来的不成靠性”显式建模为逐像素的动态不确定性。。DROID-W 通过怀抱帧与帧之间的 DINO 特点类似度来衡量物体活动的动态不确定性。。这些高不确定区域的残差项在 BA 优化中会被自动克制，从而削减动态滋扰对相机轨：：图负谓峁构兰频挠跋。。但是位姿，深度，动态不确定性的大规模结合 Gauss-Newton 优化会带来高昂的推算成本，不合用于在线系统。。为此，作者提出了交替优化的解决规划。。系统一壁执行位姿与深度的优化，一壁凭据多视角视觉特点的一致性迭代更新动态不确定性。。

不靠“先验名单”，

而是让模型自己发现动态滋扰

从前不少动态 SLAM 步骤的思路，是先鉴别“可能活动的器材”再把它们 mask 掉，好比人、、车、、宠物等。。但这种做法天然依赖类别先验：：当场景中出现未知动态物体、、非刚体活动、、部门遮挡或强反光区域时，系统往往就不够稳了。。DROID-W 则更强调观测一致性自身。。

论文中，钻研者借助 DINO 特点来衡量跨视角的一致性，并通过一个部门仿射映射加 Softplus 激活，把这些特点转化为陆续的不确定性估计。。相比把动态直接做成硬宰割 mask，这种陆续表白更细腻：：它不只是通知系统“哪里不能看”，而是进一步通知系统“哪里该少信一点，哪里能够多信一点”。。这带来一个很重要的益处：：系统不会由于场景里有动态物体，就粗鲁地把整块区域全数丢掉。。当一个物体只有部门在动，或者重新静止下来时，DROID-W 依然有机遇利用其中靠得住的信息持续跟踪。。这种“软克制”战术，比一刀切的动态 masking 更适合真实世界。。

不只是改步骤，还做了更“野”的测试集

图3: DROID-W 数据集实例。。

为了验证步骤是否真的合用于真实场景，作者并没有把尝试局限在常见的室内动态数据集上。。除了 Bonn、、TUM 和 DyCheck 这些常用数据集外，论文还引入了新的 DROID-W 数据集：：这是一组更偏室外、、越发盛开、、也更靠近真实拍摄前提的数据，蕴含 7 段 Downtown 序列，并配有 RTK 支持的真值轨迹。。DROID-W 数据集蕴含高动态场景、、图像过曝、、镜面反射、、太阳光晕等高难度片段，很好的仿照了真实野外环境中的复杂场景。。除此之外，作者还进一步测试了多段来自 YouTube 的动态视频片段，用来评估系统在真正“in-the-wild”视频中的通用性与鲁棒性。。

尝试了局

DROID-W 在多个动态数据集上都获得了最优的阐发。。作者指出，在 Bonn、、TUM、、DyCheck 等数据集上，步骤依附更不变的不确定性估计，在高动态序列中显著优于原始 DROID-SLAM，也优于多种现有动态 SLAM 步骤。。尤其值妥贴心的是在作者新提出的 DROID-W Dataset --更大尺度、、更偏真实世界的室外动态数据集--作者提出的步骤在该数据集上均匀轨迹误差仅为 23 厘米，而 DROID-SLAM 误差却为 1.46 米。。

图4：：动态不确定性估计定性对比。。第一行：：输入的视频。；；；其余行：：基线步骤与 DROID-W 的对比。。DROID-W 可能在各类场景下输出正确靠得住的动态不确定性。。

【编纂者：：杜得齐】

zbo智博1919com

CVPR 2026｜DROID-W：：复杂室外动态场景，也能不变SLAM

图1：：给定肆意动态视频，DROID

有关标签

文章点评

颁发评论

最新文章

热点文章

专家：：游览合作成共建“一带一路”国度文化融通关键纽带

第四届“国话杯”剧本朗诵大会将于明年8月在北京荆门双城进行

光大期货：：4月20日农产品日报

随机推荐