zbo智博1919com

起源:::冰雨火大舅哥吐槽cp粉作者

起源:::冰雨火大舅哥吐槽cp粉作者::: 周心怡:::

狂跑一万帧丝滑不崩!!拿着几十块单摄走一圈,,整栋楼3D地图建好了

新智元报道

编纂:::好困 桃子

【新智元导读】SLAM教父罕见公开点赞!!中国队开源的LingBot-Map,,仅靠通常摄像头实现万帧流式3D重建,,在全网引爆120万人围观。

几十块的摄像头,,干翻几万块的激光雷达。

没想到,,中国队开源的LingBot-Map,,直接引爆了全球机械人圈。

一款流式3D重建基础模型,,仅靠一颗通常RGB摄像头,,不要激光雷达,,不要深度传感器,,20FPS实时建出齐全3D地图。

最恐怖的是,,陆续跑一万帧,,精度险些不掉。

Agility Robotics的AI钻研员说,,「等这一天等了太久」。

就连SLAM领域的泰斗级人物、帝国理工学院教授Andrew Davison亲自下场点赞——

看起来这里面融入了令人印象深刻的SLAM思虑。祝::啬忝腔竦玫某删。

Davison险些从不公开评价具体的工程项目。他愿意自动转发并用「impressive」这个词的工作,,圈里人城市多看两眼。

SLAM泰斗下场

大佬直呼「终于比及了」

LingBot-Map让机械人真正「看懂」了全世界,,它的开源引全网120万人围观。

多位头部KOL纷纷转赞,,得到了业界的重量级认可。

这个让SLAM教父例外转发、让产业界钻研员直呼「等太久」的器材,,到底什么成效 ???

蚂蚁灵波放出的实测给了答案。

航拍俯瞰场景,,摄像头从高处扫过一整片城市街区,,LingBot-Map实时重建出构筑立面、屋顶结构、街路线面和行道树的齐全3D点云,,连楼顶的空调外机都能分辨。

室内穿梭场景,,摄像头从厨房走进客厅再穿过走廊,,场景光照和结构持续变动,,重建出的多房间3D地图在空间上严格对齐,,没有房间之间的错位和重影。

暗光走廊是个极端测试。摄像头在险些全黑的窄楼道里前进,,传统视觉规划在这种前提下根基失效,,LingBot-Map依然跑出了连贯的走廊结构和不变的轨迹线。

更有意思的是,,团队把自家世界模型LingBot-World天生的卡透风格视频喂给LingBot-Map,,照样实现了不变的3D重建。

输入是AI天生的虚构日式街道,,输出是带有精确空间坐标的3D点云,,两个模型的兼容性直接买通了「虚构世界→3D空间理解」的链路。

轨迹对比视频就更直观了。

在Oxford Spires和Tanks & Temples两个数据集上,,LingBot-Map的预测轨迹(橙色)险些与ground truth(蓝色)齐全重合,,而同场竞技的TTT3R和WinT3R已经严重漂移。

打开引擎盖

里面是一套「选择性影象」系统

流式3D重建的主题难点就一个,,怎么让模型「边看边建」的同时,,既不忘却从前,,又不撑爆内存。

传统3D重建是「先拍完、再处置」。

流式重建要求系统一壁接管新画面,,一壁持续定位和建图,,还要严格节制推算和存储开销。

因而,,之前的规划普遍卡在了一个弃取上。

有的压缩太狠,,跑着跑着就忘了前面看到过什么;有的把所有汗青帧都缓存下来,,了局内存随序列长度线性增长,,跑不了长视频;还有的把深度学习模型和传统SLAM后端拼在一路,,成效还行但必要手工调参,,实时性不够。

LingBot-Map的思路,,是从经典SLAM里借了一个结构性洞察。

要让机械人在未知环境里边走边建图,,至少必要守护三种分歧粒度的空间影象。但传统SLAM靠工程师手动编写几何约束来治理这些影象,,矫捷性有限。

LingBot-Map把同样的结构内化到了Transformer确把稳力机制里,,让模型自己学会该记什么、该忘什么。

这套机制叫几何高低文把稳力(GCA),,同时守护三层影象。

1. 锚点(Anchor),,记住「我从哪启程」。

前几帧作为锚定帧,,锁死坐标系和尺度基准,,就像GPS基站。模型处置第一万帧时,,依然明显第一帧在什么地位。

2. 位姿参考窗口(Pose-reference window),,记住「我身边有什么」。

保留最近几十帧的齐全视觉信息,,捉拿当前地位左近的密集几何细节,,相当于驾驶时面前的挡风玻璃视野。

3. 轨迹影象(Trajectory memory),,记住「我走过的路」。

远处的汗青帧不必要保留所有视觉细节,,每帧只留6个极紧凑的提要Token,,把一整条行走轨迹的关键几何信息压缩到很小的内存里。::笫泳悼床坏矫刻踅值拿派瘫,,但足够让你知晓自己从哪来。

三层影象听着复杂,,但跑起来非!!甘 。

拿一万帧的视频来说,,尺度因果把稳力要缓存约500万个Token,,GCA只有约7万个。每新增一帧,,尺度规划要新增约500个Token,,GCA只新增6个。内存增长速度压缩了约80倍。

这就是为什么LingBot-Map能在恒定内存下跑完万帧以上的长视频,,而其他规划跑几千帧就起头崩。

训练方面,,团队选取了两阶段战术。

第一阶段先在29个涵盖室内、户外、合成、真实世界的数据集上训练基础模型,,成立通用的几何理解能力。

第二阶段引入GCA,,训练视图数量从24逐步拉长到320,,让模型先学会看短片段,,再逐步把握长轨迹。

跑分方面,,论文在5个benchmark上做了全面评测。

Oxford Spires(牛津大学堂园大规模室内外混合轨迹),,ATE轨迹误差6.42米,,第二名是18.16米,,差距靠近3倍。

更值得说的是,,这个精度甚至超过了必要看齐全数帧再统一推算的离线步骤(12.87)和必要反复迭代优化的传统步骤(10.52)。

从320帧拉长到3840帧,,ATE仅从6.42升到7.11,,险些不随序列增长衰减。

ETH3D(室内外混合,,激光扫描深度真值),,重建F1分数达到98.98,,较第二名的77.28提升超过21个百分点。

Tanks & Temples(大规;饨峁梗,,ATE 0.20米,,第二名是0.76米。

7-Scenes(室内RGB-D),,ATE 0.08米,,全场最低。

对机械人意味着什么 ???

学术圈看ATE和F1,,机械人厂商算的是另一笔账。

首当其冲的是硬件成本。

一套工业级激光雷达,,便宜几千美元,,贵的上万,,加上IMU、标定工具链和软件适配,,感知 ???榍崴沙缘粽杀镜娜种。LingBot-Map只有一颗几十块钱的RGB摄像头。

家用服务机械人、低速配送车这类对售价极端敏感的品类,,砍掉激光雷达的意思弘远于多加一颗芯片。

其次是长航时自主导航。

机械人在大型物流中心或城市街道做巡检,,陆续工作几个小时是根基要求。

传统规划跑长了内存就溢出。而LingBot-Map恒定内存处置万帧的能力,,让机械人在超大空间中长功夫自主导航不再是问题。

还有一个是灵巧操作。

这就要提到蚂蚁灵波今年1月开源的LingBot-Depth。

机械人抓通明玻璃杯、不锈钢容器时,,传统深度相机险些是「瞎的」。通明和反光材质无法反射有效回波,,深度图会出现大面积浮泛。

LingBot-Depth用掩码深度建模(MDM)技术解决了这个问题。

训练时有意遮住一部门深度区域,,逼模型从RGB图像的纹理、概括中揣度真实距离。了局就是,,在NYUv2、ETH3D等权威基准上刷到SOTA,,深度精度甚至超过了工业级深度相机。

模型已通过奥比中光深度视觉尝试室认证,,双方达成战术合作,,打算推出新一代深度相机。真机测试中,,通明储物盒上实现了50%的抓握率。

LingBot-Depth掌管「看清每个像素有多远」,,LingBot-Map掌管「实时理解整个三维场景」。

两者组合,,机械人的空间感知闭环合拢。

机械臂面对厨房里的玻璃杯、尝试室里的试管、仓库里的反光金属容器,,都有了靠得住的3D空间参考。

一张拼图,,五步走完

把视角拉得更高来看,,LingBot-Map 的开源不是一个孤立事务,,而是蚂蚁灵波一条清澈的具身智能技术进化蹊径上的最新里程碑。

回过甚看蚂蚁灵波从前三个月的路线图。

今年1月,,灵波在「具身智能进化周」里一口气开源了四款模型。

LingBot-Depth掌管深度感知。

LingBot-VLA是具身大模型,,在上海交大GM-100评测中刷新了真机成功率纪录。

LingBot-World对标Google Genie 3,,16 FPS实时交互。

LingBot-VA初次实现自回归视频-作为结合建模,,真机工作成功率比Pi0.5均匀提升20%。

但中央一向缺一块。

深度估计是逐帧的「点」信息,,3D建图是持续的「面」信息,,中央这层实时空间理解,,之前是空缺的。

LingBot-Map的到来,,精准地补上了这块拼图。

至此,,蚂蚁灵波的具身智能技术栈形成了一个齐全的闭环:::

看清世界(Depth)→ 理解空间(Map)→ 仿照物理(World)→ 决策行动(VLA/VA)

这条链路的每一个环节全数以Apache 2.0和谈开源,,代码、权重、技术汇报同步上线Hugging Face和ModelScope。

这在全球领域内,,是极为少见的。

对机械人行业来说,,一颗摄像头能干的事,,从今天起头变多了。

Hugging Face:::

https://huggingface.co/robbyant/lingbot-map

ModelScope:::

https://www.modelscope.cn/models/Robbyant/lingbot-map

https://github.com/Robbyant/lingbot-map

https://arxiv.org/abs/2604.14141

Homepage:::

https://technology.robbyant.com/lingbot-map

@蔡奕辰:::五大联赛竞猜买球软件,,卖台勾当被曝光 ???民进党当拘谋了
@吴湘宁:::?哈 基 功 夫?
@郭文彦:::再见十八班翻红

热点排行

【网站地图】