一凡 发自 凹非寺量子位 | 公众号 QbitAI什么在限制空间智能落地从自动驾驶到具身智能行业对此的共识是数据。因为数据不够模型泛化能力就弱只能靠硬件来凑。这在机器人身上体现得尤为明显。机器人要感知空间常用的硬件是RGB-D相机它既能看懂RGB图像又能感知深度从而获取到三维立体信息让机器人理解物理世界。但问题是机器人的这双眼并不靠谱遇到镜子、电梯、玻璃门等透明物体或者反光表面RGB-D相机就容易失效导致机器人感知异常。这些场景绕不开躲不掉都是机器人走进千家万户一定会碰到的问题必须要解决。但因为缺少数据底座行业过去的解决方式一般是靠堆硬件补短板强化感知能力。这种局面即将迎来改变。因为就在刚刚具身智能的基建玩家出手对症下药推出了一个开源数据基座。基于这个基座训练的模型都已经实现SOTA了。空间智能卡在哪儿了空间智能给了机器人一双眼睛和小脑机器人靠它才能实现感知、规划、导航和精细操作。比如说机器人需要拿起面前的杯子它不光要看懂这是杯子还需要知道杯子离自己有多远、边界在哪儿。问题是实现空间智能并不容易需要依靠大规模、高质量的数据。互联网上已有的海量RGB图像规模确实大但不符合要求因为它只能“喂”给AI二维信息AI很难从中生长出三维空间的理解能力。所以行业这些年一直在给AI补空间理解这门课路线也不少有RGB-D相机、激光雷达和3D重建等方法。其中RGB-D相机路线一直都很受欢迎因为它就像给AI开了“第三只眼”不光能测长和宽还能测量距离而且不需要复杂后处理可以实时感知环境。但RGB-D路线也有不足主要有两个问题。首先第一个问题是采集任务本身比较困难不是说简单地举个相机找个机位“咔嚓”一拍就完事儿。不仅需要检查左右图像一致性还要对RGB图像和深度信息进行时空同步以及处理不同硬件之间的差异。这还不算完获取到RGB-D数据后第二个问题接着就来了研究者会发现其实RGB-D相机有时候很不靠谱碰到玻璃、镜面、金属反光材质和白墙这种低纹理表面就容易失效。还是以机器人拿杯子为例咱们日常生活看到的杯子一般都长这样而在RGB-D相机的深度传感器下杯子be like酱婶儿在机器人的视角里两个杯子直接连成了一块根本难以分辨也自然无法准确拿取。RGB-D相机的不稳定进一步导致了高质量RGB-D数据的缺失。蚂蚁灵波开源空间智能数据基建为了缓解行业的数据痛点蚂蚁灵波最近开源了LingBot-Depth-Dataset数据集其总体规模达到2.71TB包含300万对标注RGB-D数据每一对样本都包含一张RGB图像、传感器原始深度图和真值深度图。其中大部分都是真实数据大约有200万对140万对是由多台RGB-D相机采集自真实室内场景的数据RobbyReal如下图所示以及58万对由机器人在VLA任务中采集的数据RobbyVla。这些真实数据的来源非常广泛包括住宅、教室、博物馆、商店、医院、健身房和电梯等各种生活场景数据来源丰富作为训练底座时就能增强模型的泛化性。此外还有约100万对由双相机视角渲染生成的合成数据RobbySim。其余部分都是RobbySimVal含有3.8万条数据作为仿真数据的验证集。这种虚实融合采集数据的方式既能覆盖一些边缘场景也能降低数据采集成本。规模大、场景丰富只是数据集可以被行业广泛使用的必要条件但还不是全部。LingBot-Depth-Dataset还有一个值得关注的地方在于数据分布的多样性它在构建时使用Orbbec 335、335LRealSense D405、D415、D435、D455这6款主流深度相机进行采集不同相机在成像特性、噪声模式、深度精度上各有差异使得数据集天然覆盖了多种传感器分布为下游研究和模型训练提供了更丰富的数据基础。这意味着这座数据金矿可以被更多研发团队挖掘成为空间智能的数据基建。打造具身智能的“大脑平台”蚂蚁灵波开源的这套数据基建缓解了开源社区缺乏真实场景拍摄数据的问题不仅量大管饱而且战绩可查。今年年初蚂蚁灵波发布了LingBot-Depth模型LingBot-Depth主要基于LingBot-Depth-Dataset数据集训练在多项权威深度补全基准测试如iBims、NYUv2和DIODE上实现了SOTA。而当LingBot-Depth部署到真实环境后可以驱动机器人稳健抓取透明和反光物体这在以往可以说是天方夜谭的事情。随后蚂蚁灵波又紧接着开源了LingBot-VLA打通视觉、语言和动作驱动机器人做出决策。紧随其后开源的LingBot-World则为模型提供了仿真训练场。当时压轴登场的LingBot-VA则率先让世界模型直接驱动机器人动作实现了“边推演边执行”引领了具身研究的趋势。从感知到决策从模型到数据蚂蚁灵波正在打造具身智能的“大脑平台”。其最新开源成果也启发着行业思维转向。物理AI数据先行追根溯源来看这种通过软件方法加强感知能力而不是一味堆传感器的思想体现了计算机科学中的软件硬件等效原理。那软件和硬件手段应该如何取舍与具身智能同属物理AI的自动驾驶行业已在该问题上形成了共识值得参考借鉴首先最值得重视的是数据和算法架构。前者是AI迭代的基石后者是指将多个算法整合形成合力并长期积累的能力。其次才是堆更多数量和价格更高的传感器。自动驾驶从业者普遍认为随着数据越来越多再加上算法架构持续升级模型的空间感知能力会越来越强这时再堆传感器虽然有用但是提升的效果会越来越弱。正是有了这样的共识行业才打下了硬件成本为自动驾驶商业化繁荣奠定了基础。自动驾驶的实践已经证明物理AI落地优先考虑软件手段这并不会削弱空间智能还可以推动商业化。这同样也是蚂蚁灵波开源一系列模型和数据集给具身智能行业带来的启发加强空间智能数据算法优先不必追逐昂贵硬件。数据集地址Hugging Face:https://huggingface.co/datasets/robbyant/mdm_depthModelScopehttps://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset