刚刚，DeepSeek大更新！多模态终于来了

张

张建站

2026/5/1 19:40:03

10分钟阅读

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自DeepTech深科技、CVer4 月 29 日下午DeepSeek 多模态团队负责人陈小康Xiaokang Chen在 X 发布动态“Now, we see you. ”配图为两只 DeepSeek 鲸鱼 logo一只仍戴着海盗眼罩一只已经睁开眼睛。这是他在 24 小时内第二次释放类似信号。前一天他曾发布措辞为“Soon, we see you”的同主题预告随后该推文被删除。图丨相关推文来源X陈小康目前在 DeepSeek 负责多模态预训练与后训练统领 DeepSeek 大模型的多模态能力建设。其北大博士阶段导师为曾刚教授研究方向涵盖视觉-语言模型、半监督分割、masked image modeling 等。与预告同步部分用户已在 DeepSeek 官方 App 中灰度到“识图模式”可惜笔者和同事们都没能被灰度测试到。截图显示App 输入栏上方除原有的“快速模式”“专家模式”外新增“识图模式”按钮并标注“图片理解功能内测中”。社交平台流出的内测截图显示用户上传一张图片后能够输出包括“分析用户需求”“分析图片”在内的结构化描述识别图片具体内容。图丨新上的识图模式来源小红书云涧梦这是 DeepSeek 主线产品中首次出现具备图像理解能力的模式。此前 4 月 8 日DeepSeek App 完成第一轮模式分层改版上线“快速模式”和“专家模式”根据 V4 发布后的官方说明前者由 V4-Flash 驱动后者对应 V4-Pro。当时已有微博用户蚁工厂放出含“快速/专家/视觉”三档选项的截图但视觉一档迟迟未开放。从今天起这一档开始进入小范围灰度。这次内测距 V4 正式发布刚过 5 天。4 月 24 日 DeepSeek 发布的 V4 系列预览版V4-Pro 1.6T 参数 / V4-Flash 284B 参数均支持 1M token 上下文仍是纯文本模型这一点和此前外界关于“V4 将原生多模态”的密集传闻不符。V4 技术报告第 6 节“Conclusion, Limitations, and Future Directions”中明确写道下一步工作之一是“将多模态能力融入模型体系”。图丨通过浏览器开发者工具抓取 chat.deepseek.com 的 settings 接口可以看到该模式的后端配置已经下发model_type: vision、name: 识图模式、description: 图片理解功能内测中、enabled: true、is_default: false、switchable: false。也就是说识图模式已经在后端启用但默认关闭、不允许用户手动切换。来源DeepTech值得注意的是V4 发布前后曾有一系列围绕 DeepSeek 多模态人才流失的报道。4 月 12 日自动驾驶公司元戎启行确认 DeepSeek 多模态模型核心贡献者阮翀已加盟出任首席科学家DeepSeek-OCR 系列核心作者魏浩然在春节前后离职。此次陈小康的两次预告与识图模式灰度上线是 DeepSeek 多模态团队近三个月来第一次以产品形式对外释放进展。不过目前可观察到的能力仍限于图像理解vision-language understanding而非外界过去半年反复猜测的“原生多模态生成”。从 App 灰度截图的输出风格判断识图模式更接近一个挂载在 V4 主干上的视觉理解模块。Amusi 发现手机端DeepSeek被灰度到了于是简单实测了一波内容如下建筑物识别人物识别目前 DeepSeek 还不具备图像编辑、图像生成能力。DeepSeek 自己的说法是具备多模态视觉理解能力目前还不支持图片/视频生成和编辑功能。DeepSeek 官方目前未对识图模式的开放范围、正式发布时间、底层模型来源做出说明。但从陈小康从“Soon”到“Now”的两次发帖节奏判断更大范围的开放或许在数日之内。参考资料1.https://x.com/PKUCXK/status/2049381471669080209运营/排版何晨龙本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号整理不易请点赞和在看

【紧急预警】2025年欧盟UN-R155强制要求TSN车载部署！现在不掌握这5个C语言协议开发硬核能力，将无法通过型式认证

更多请点击： https://intelliparadigm.com 第一章：TSN车载以太网协议栈的C语言开发全景概览时间敏感网络（TSN）正成为智能汽车域控制器间高确定性通信的核心基础设施。在资源受限的ECU环境中，C语言因其零成本抽象、内…...

2026/5/1 19:33:54 阅读更多 →

从AttributeError到举一反三：用这个错误案例，彻底搞懂Python对象的‘属性’与‘方法’

从AttributeError到举一反三：用这个错误案例，彻底搞懂Python对象的‘属性’与‘方法’ 当你第一次在Python中遇到AttributeError: numpy.ndarray object has no attribute value_counts这样的错误时，可能会感到困惑和沮丧。但事实上&#xff…...

2026/5/1 19:33:48 阅读更多 →

免费开源在线PPT编辑器：PPTist让你轻松创建专业演示文稿

免费开源在线PPT编辑器：PPTist让你轻松创建专业演示文稿【免费下载链接】PPTist PowerPoint-ist（/pauəpɔintist/）, An online presentation application that replicates most of the commonly used features of MS PowerPoint, allowing …...

2026/5/1 19:32:45 阅读更多 →

如何在7分钟内搭建专业级仓库管理系统：从零到生产就绪的完整指南

如何在7分钟内搭建专业级仓库管理系统：从零到生产就绪的完整指南【免费下载链接】GreaterWMS This Inventory management system is the currently Ford Asia Pacific after-sales logistics warehousing supply chain process . After I leave Ford , I start thi…...

2026/4/28 6:15:44 阅读更多 →

星露谷物语模组加载器SMAPI：轻松打造个性化农场体验的终极指南

星露谷物语模组加载器SMAPI：轻松打造个性化农场体验的终极指南【免费下载链接】SMAPI The modding API for Stardew Valley. 项目地址: https://gitcode.com/gh_mirrors/smap/SMAPI 想要为《星露谷物语》添加无限乐趣，却担心模组安装复杂、游戏崩…...

2026/4/26 0:01:52 阅读更多 →

终极指南：4步构建专业级浏览器资源捕获与管理工作流

终极指南：4步构建专业级浏览器资源捕获与管理工作流【免费下载链接】cat-catch 猫抓浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓（cat-catch&#x…...

2026/4/26 0:04:21 阅读更多 →