多模态空间智能不仅要求机器理解任意相机视角下的现实世界更要求其具备从任意相机方位创造世界的能力。然而当前的视觉与生成模型大多仅隐式地感知相机几何或将理解与生成任务割裂开来。新加坡南洋理工大学、商汤科技、密西根大学和马普所的研究者们联手提出了一种全新的范式——将“相机几何”破译为一种“语言”并引入“与相机共思”Thinking with Camera的理念。本篇工作已被收录为 ICLR 2026 高分论文论文Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation链接https://arxiv.org/abs/2510.08673代码https://github.com/KangLiao929/Puffin基于这一设想研究者们进一步提出了Puffin架构一个能够执行“以相机为中心”的理解与生成统一多模态大模型。Puffin 将自回归推理与扩散建模相结合使其能够精准预测相机几何、根据指定位姿可控生成世界并进行鲁棒的空间推理。此外该工作开源了 Puffin-4M 数据集包含 400 万组涵盖海量场景与相机参数的“视觉-语言-相机”三元组。通过精心设计的指令微调Puffin 还能够支持世界探索、空间想象及摄影指导等多种跨视角、交互式应用。数据集https://huggingface.co/datasets/KangLiao/Puffin-4M这项工作迈出了构建“相机中心化世界模型”的关键一步实现了感知、推理与生成等多模态任务在显式相机表征下的高度统一。4月7日周二晚8点青稞Talk 第118期新加坡南洋理工大学 MMLab 与 S-Lab 博士后研究员廖康将直播分享《Puffin: 统一多模态空间智能大模型——从任意视角理解和生成世界》。分享嘉宾廖康新加坡南洋理工大学 MMLab 与 S-Lab 博士后研究员。 他于北京交通大学信息科学研究所获得博士学位期间曾赴德国马克斯·普朗克计算机科学研究所担任访问学者。相关研究成果已发表至国际顶级期刊和会议如CVPR/ICCV/ECCV/ICLR/NeurIPS/ICRA/TPAMI等。此外他受邀担任 CVPR、NeurIPS 等国际学术顶会的领域主席Area Chair。他目前的研究方向包括统一多模态模型、空间智能以及世界模型。主题提纲Puffin: 统一多模态空间智能大模型——从任意视角理解和生成世界1、“以相机为中心”理念在空间智能和世界模型的必要性2、Puffin架构统一“以相机为中心”的多模态理解和生成任务3、“与相机共思”空间思维链消除模态鸿沟4、Puffin-4M“视觉-语言-相机”三元组数据集的构建和拓展5、指令微调进一步延伸Puffin架构在跨视角、可交互场景中的应用6、工作局限性和未来研究探讨直播时间4月7日(周二)20:00 - 21:00如何观看Talk 将在青稞社区【视频号青稞 AI、Bilibili青稞 AI】上进行进行直播欢迎预约观看Bilibili 直播间https://live.bilibili.com/32145701