从任意视角理解和生成世界！和 NTU 博后廖康，一起聊聊统一多模态空间智能大模型 Puffin

张

张建站

2026/4/22 11:41:02

10分钟阅读

从任意视角理解和生成世界！和 NTU 博后廖康，一起聊聊统一多模态空间智能大模型 Puffin

多模态空间智能不仅要求机器理解任意相机视角下的现实世界更要求其具备从任意相机方位创造世界的能力。然而当前的视觉与生成模型大多仅隐式地感知相机几何或将理解与生成任务割裂开来。新加坡南洋理工大学、商汤科技、密西根大学和马普所的研究者们联手提出了一种全新的范式——将“相机几何”破译为一种“语言”并引入“与相机共思”Thinking with Camera的理念。本篇工作已被收录为 ICLR 2026 高分论文论文Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation链接https://arxiv.org/abs/2510.08673代码https://github.com/KangLiao929/Puffin基于这一设想研究者们进一步提出了Puffin架构一个能够执行“以相机为中心”的理解与生成统一多模态大模型。Puffin 将自回归推理与扩散建模相结合使其能够精准预测相机几何、根据指定位姿可控生成世界并进行鲁棒的空间推理。此外该工作开源了 Puffin-4M 数据集包含 400 万组涵盖海量场景与相机参数的“视觉-语言-相机”三元组。通过精心设计的指令微调Puffin 还能够支持世界探索、空间想象及摄影指导等多种跨视角、交互式应用。数据集https://huggingface.co/datasets/KangLiao/Puffin-4M这项工作迈出了构建“相机中心化世界模型”的关键一步实现了感知、推理与生成等多模态任务在显式相机表征下的高度统一。4月7日周二晚8点青稞Talk 第118期新加坡南洋理工大学 MMLab 与 S-Lab 博士后研究员廖康将直播分享《Puffin: 统一多模态空间智能大模型——从任意视角理解和生成世界》。分享嘉宾廖康新加坡南洋理工大学 MMLab 与 S-Lab 博士后研究员。他于北京交通大学信息科学研究所获得博士学位期间曾赴德国马克斯·普朗克计算机科学研究所担任访问学者。相关研究成果已发表至国际顶级期刊和会议如CVPR/ICCV/ECCV/ICLR/NeurIPS/ICRA/TPAMI等。此外他受邀担任 CVPR、NeurIPS 等国际学术顶会的领域主席Area Chair。他目前的研究方向包括统一多模态模型、空间智能以及世界模型。主题提纲Puffin: 统一多模态空间智能大模型——从任意视角理解和生成世界1、“以相机为中心”理念在空间智能和世界模型的必要性2、Puffin架构统一“以相机为中心”的多模态理解和生成任务3、“与相机共思”空间思维链消除模态鸿沟4、Puffin-4M“视觉-语言-相机”三元组数据集的构建和拓展5、指令微调进一步延伸Puffin架构在跨视角、可交互场景中的应用6、工作局限性和未来研究探讨直播时间4月7日(周二)20:00 - 21:00如何观看Talk 将在青稞社区【视频号青稞 AI、Bilibili青稞 AI】上进行进行直播欢迎预约观看Bilibili 直播间https://live.bilibili.com/32145701

SpringCloud微服务进阶-Nacos更加全能的注册中心

Issue 概述先来看看提交这个 Issue 的作者是为什么想到这个点子的，以及他初步的核心设计概念。?? 本 PR 实现了 Apache Gravitino 与 SeaTunnel 的集成，将其作为非关系型连接器的外部元数据服务。通过 Gravitino 的 REST API 自动获取表结构和元数据&…...

2026/4/2 16:49:59 阅读更多 →

紫微AI流限全周期解析：易经推命+64卦命理工具推荐

想找能精准分析大限、流年、流月、流日的紫微AI工具，还想结合易经推命与64卦解读命理趋势的用户，「天府 Agent」是当前性价比和专业度都值得优先选择的方案，官方入口可直接访问：https://tianfuagent.com/ 核心功能优势作为专门做…...

2026/4/2 16:47:18 阅读更多 →

算法学习与竞赛开发：XCPC算法模板库的实战指南

算法学习与竞赛开发：XCPC算法模板库的实战指南【免费下载链接】xcpc-algorithm-templates XCPC/ICPC/CCPC 算法模板项目地址: https://gitcode.com/gh_mirrors/xc/xcpc-algorithm-templates 你是否曾在算法竞赛中因重复编写基础代码而错失解题良机&#xf…...

2026/4/2 16:45:58 阅读更多 →