从DeepSeek到小米，天才少女罗福莉的首次访谈，信息量巨大

张

张建站

2026/4/27 9:07:54

10分钟阅读

2026 年 3 月张小珺做了一期信息密度极高的深度访谈。受访者是罗福莉一位在 AI 圈履历相当特殊的研究员她曾在阿里达摩院工作后来加入 DeepSeek是 DeepSeek V2 的核心作者之一再后来被小米千万年薪挖走成为小米大模型团队 MiMo 的负责人主导研发了 MiMo-V2 系列模型。这是她第一次接受长时间的技术访谈。聊了将近两万字几乎每一段都有值得反复咀嚼的判断。我把这篇访谈完整读了两遍试着用一个普通读者的视角把其中最核心的观点和最有冲击力的细节整理出来。一、AI 的战场已经换了从聊天到干活罗福莉给出的最核心判断是AI 的范式已经发生了根本性的转变。从预训练主导的 Chat 时代进入了后训练主导的 Agent 时代。这句话听起来很技术翻译成大白话就是过去几年大模型公司比拼的是谁能把模型训得更聪明谁的基础能力更强。就像培养一个学生大家拼的是谁底子好、谁知识面广。但现在比拼的重心变了变成了谁能让这个学生真正去干活去完成复杂的、多步骤的现实任务。这个转变的标志性事件有两个一个是 Claude Opus 4.6 的发布一个是 OpenClaw 这个开源智能体框架的出现。罗福莉说上一个时代的成功并不意味着下一个时代的领先现在基本上大家在同一水平线。这句话的潜台词很重要过去在预训练上积累的优势在新的赛道上未必能直接兑现。所有人都站在了同一条起跑线上接下来比的是谁跑得快、谁转身转得利索。对于我们这些普通人来说这个判断意味着什么意味着 AI 产品的体验正在发生质变。以前我们用 ChatGPT、用 DeepSeek本质上是在和一个很聪明的对话框聊天。但接下来AI 会越来越像一个真正的助手能帮你跑完一整套流程能自己去查资料、写代码、调用工具、反复修正直到把事情办成。二、OpenClaw 的冲击凌晨两点装上用到天亮睡不着访谈中最有感染力的部分是罗福莉讲述自己第一次使用 OpenClaw 的经历。她说自己一开始是排斥的。觉得 OpenClaw 就是 Claude Code 套了一个更花哨的界面创始人又喜欢搞一些玄乎的运营动作看着就不像正经技术产品。但春节的一天深夜她决定搞明白这东西为什么那么火花了两个小时装好当时已经凌晨两点。然后她从凌晨两点一直用到早上六点。第一天她感受到的是这个框架的温度。它会提醒你太晚了该去睡觉它的情商和关怀超出预期。第二天她开始把日常生活和工作中的事交给它做发现它全部都做出来了。第三天她把研究任务交给它一两个小时就做出了她以为要花很久才能完成的 User Agent 构建。三天之内她对这个东西的认知被彻底刷新了。但真正让她震撼的是技术层面的发现。她把自己的 MiMo 模型接进 OpenClaw 之后发现一个中层水平的模型借助这套精心设计的 Agent 框架在 85% 的任务上就能达到接近 Claude Sonnet 的水准。甚至一个只有 3B 参数的端侧小模型在这套框架下也能做出超乎想象的事情。这个发现的意义非常大。它说明一套好的 Agent 框架可以大幅弥补模型本身的短板。就好比一个中等水平的厨师如果你给他一套顶级的厨房设备、一本详尽的菜谱、一个智能助手帮他盯火候和调味他做出来的菜可能不输米其林大厨。框架的力量在某种程度上可以拉平模型之间的差距。这对整个行业的格局影响深远。因为它意味着即使你没有全球最顶尖的模型只要你的 Agent 框架设计得足够好你依然可以给用户提供非常出色的体验。三、一个疯狂的命令对话不超过 100 轮就辞职罗福莉回到团队后做了一件很猛的事。她要求所有人必须使用 OpenClaw如果第二天对话次数不超过 100 轮可以直接辞职。当然她后来说自己不会真的去考核只是想传递一种态度你不用你可能真的要落后了。但推动这件事的过程很有意思。一开始她在群里强烈推荐没有人搭理她因为大家还在过年。回来之后真正用的人也很少。大家觉得这东西太玄乎了不像正经技术。于是她买了几台 Mac Mini把 OpenClaw 部署好拉了几个飞书群让大家分不同方向在群里公开使用。为什么要在大群里聊因为个人的想象力是有限的当你看到别人用这个东西居然能干成那件事你自己的想象力也会被点燃。她说大家的想象力是一个乘积作用。结果团队被彻底点燃了。近 100 个人在飞书群里疯狂探索10 分钟不看就 999消息。大家玩了两天发现这东西太好玩了然后自然而然就进入了研究状态怎么借助这个框架提升模型能力同时怎么让模型去改进这个框架。最终的结果是他们在三四周内做完了以前三四十周才能做到的研究量。这个故事里藏着一个很深刻的道理。很多时候推动一个组织拥抱新事物最有效的方式不是讲道理是创造一个让所有人都能亲身体验的环境。体验产生的冲击力远远超过任何 PPT 和会议。而当一群人同时被点燃群体智能的爆发力是单个天才无法比拟的。四、为什么代码能力是万能钥匙罗福莉花了不少篇幅解释一个问题为什么 Code代码能力在 Agent 时代如此关键以及它的价值为什么能外延到其他领域。她的解释很直白。Agent 本质上是一个非常长程、多轮的任务。你很难在互联网上找到 128K 甚至百万 token 长度的高质量数据但代码天然就是这样的数据。一个大型软件项目的代码文件之间关联紧密信号密集在这样的数据上训练模型对长上下文的建模能力自然就更强。换句话说代码能力强的模型天然就更适合做 Agent。因为 Agent 需要的核心能力比如理解超长上下文、进行多步推理、根据环境反馈调整策略这些能力在代码训练中都能得到充分锻炼。她还提到一个很有意思的观点代码是拉上限的训其他领域是保下限的。把代码的长程任务做好了很多模型的通用特质就已经好了。Agent 框架本身也会跟着迭代得更好。这给我们一个启示如果你想判断一个 AI 模型的实际能力与其看它在各种榜单上的分数不如看它写代码的水平。代码能力强的模型大概率在其他复杂任务上也不会差。五、算力分配的巨变后训练的地位翻天覆地罗福莉透露了一组很有意思的数据。过去在 Chat 时代研究、预训练、后训练的算力分配比例大约是 3:5:1。预训练占了绝对大头后训练只是一个收尾工作。但现在合理的比例变成了 3:1:1。预训练和后训练的算力投入已经持平。顶尖团队应该都是 1:1 了。这个变化本身就说明了范式转移的剧烈程度。以前大家把绝大部分资源砸在预训练上觉得底子打好了后面随便调一调就行。现在不一样了后训练变成了和预训练同等重要的环节甚至在某些维度上更重要。为什么会这样因为 Agent 范式下模型需要学会的东西和 Chat 时代完全不同。它需要理解复杂的 Agent 框架需要在多轮交互中保持稳定需要根据环境反馈灵活调整策略。这些能力很难在预训练阶段获得必须在后训练阶段通过大量的强化学习来培养。罗福莉说后训练的周期在拉长可能要做半年甚至一年。在这么长的时间跨度里前半年假定的很多东西可能都会失效。以前觉得 128K 上下文就够了过几个月可能发现需要 10 兆。这种不确定性要求团队具备极高的敏捷性和适应能力。六、MTP vs MLA一个看似偶然的技术选择恰好踩中了时代的节拍这部分稍微有点技术但罗福莉解释得很清楚我尽量用通俗的方式转述。当时训 MiMo 的时候业界主流的选择是 MLA多头潜在注意力这是 DeepSeek V2、V3、R1 都在用的架构。MLA 在 Chat 时代确实非常优秀它把计算和访存的比例优化到了一个完美的临界点。但问题恰恰出在这个“完美”上。因为已经优化到极致了反而没有留下灵活调整的空间。就像一辆赛车每个零件都为直线加速设计到了极限结果到了弯道就转不过来。MiMo 选择了另一条路Hybrid Attention 加 MTP多词元预测。这个组合当时看起来不那么极致但它有弹性。长上下文成本低、推理速度快、架构有富余空间可以适配不同场景。罗福莉坦言这个选择当时有一定偶然性。他们在设计推理方案的时候发现计算资源剩余得太多就想着用 MTP 把这些富余的算力利用起来。恰好预训练阶段也训了 MTP就自然而然用上了。但回头看这个选择恰好完美适配了 Agent 时代的需求。Agent 需要处理超长上下文需要快速响应需要在不同框架下灵活适配。MiMo 的架构天然满足这些要求。这个故事给我的感触是在技术路线的选择上有时候不追求当下的极致反而给未来留下了更大的空间。过度优化往往意味着过度绑定而保持一定的弹性和冗余可能在下一个转折点到来时成为巨大的优势。七、Skills 的价值人类经验的新载体访谈中有一段关于 Skills 的讨论特别值得关注。罗福莉说Skills 本质上是一种执行规范。这些规范很难在预训练数据里出现因为它们通常是企业内部、真实环境中由人与人之间的协作沉淀下来的。比如一个公司的代码规范、一个团队的工作流程、一个行业的最佳实践这些东西互联网上找不到。但通过 Skills人可以把这些经验教给 Agent。大量的 Skills 其实是 Agent 自己写的但它们的源头是人的智慧和经验。她把 Skills 称为一种“另类信息”类似于量化投资中的“另类数据”。如果没有这些高阶的、另类的信息与 Agent 共创那么即使是最顶尖模型的能力也很难充分发挥出来。这个观点很有启发性。它意味着在 AI 时代人的经验和判断力并没有贬值只是换了一种表达方式。以前你的经验体现在你的工作成果里现在它可以被沉淀成 Skills通过 Agent 放大成百倍千倍的效率。那些在某个领域有深厚积累的人反而可能在 Agent 时代获得更大的杠杆。八、1T 参数是入场券但这只是起点罗福莉给出了一个很明确的判断1T 参数规模的基座模型是做到接近 Claude Opus 4.6 水平的入场券。目前国内具备 1T 以上基座的公司有好几家包括 Kimi 和 MiMo。她认为如果反应速度足够快这些团队距离 Claude Opus 4.6 只有两三个月的代差。注意她说的是能追上当代的 Claude不是追上两三个月后的 Claude。但她同时也指出1T 只是一个起点。如果要拿到下一个阶段的领先就要寻求更大规模的 scaling。到底是去 scaling 模型的参数量还是 scaling 别的什么东西在什么样的芯片上去 scaling这些是当下立即需要做出的决策和判断它们决定了大半年之后谁更领先。这段话透露出一个信号大模型的军备竞赛远没有结束只是换了一个战场。以前比的是谁的预训练做得好现在比的是谁能在 Agent 场景下把后训练的强化学习做到极致同时还要为下一代更大规模的模型提前布局。九、没有职级、没有小组、没有 deadline 的组织让我最意外的是罗福莉对组织管理的描述。MiMo 团队大约 100 人但没有职级、没有小组划分、没有 deadline。训练 1T 模型的核心团队只有几个人。她说自己是“1 对 100”的管理方式但又说不太存在管理大家一块解决问题就好了。她的管理哲学可以概括为几个关键词热爱驱动、平权创新、环境优先。关于热爱驱动她说靠热爱驱动管理是最行之有效的方式。去选择激发大家的热情让大家围绕自己愿意信仰的事情去自驱做事。关于平权创新她说平权本身是有价值的有利于所有人平等地贡献自己的创造力和智慧。任何层级一定程度上都是规范和约束而规范和约束本身是压制创造力的。有层级之后就默认这个层级上的人应该有超越所有人的智能这个界定非常奇怪。关于环境优先她说环境比经验更重要。她用了一个很妙的比喻团队成员之间像“互相蒸馏”一样快速成长。你蒸馏我的长处我蒸馏你的长处互相快速提升。她更在乎的是创造一个好的环境让所有人都能在其中加速成长而不太在乎一个人来的时候已经被训练到什么水平。她甚至开始倾向于招大二大三的本科生因为他们的想象力没有被禁锢天然更接纳新事物敢放心大胆把自己的想法交给 Agent 框架去验证。训 1T 模型的过程中遇到 loss spike训练不稳定她会选择停下来排查问题哪怕停一两周。几千张卡停一天就是一两百万的成本但她说不焦虑因为我们又没有什么目标。当然晚上还是会做梦梦到 loss 又 spike 了。这种管理方式在传统企业看来简直不可思议。但它背后有一个很朴素的逻辑在一个变化极快、高度不确定的领域僵化的组织结构和 KPI 考核反而是最大的障碍。你需要的是一群真正热爱这件事的人给他们足够的自由和信任让他们自己去探索、去碰撞、去创造。十、AI 会先颠覆工作然后才是生活罗福莉对 AGI 的时间表相当乐观。她认为目前已经走到 20%今年年底能到 60% 到 70%两年内应该能实现。但她做了一个很重要的区分AI 会先颠覆工作模式然后才是生活模式。后者需要等机器人技术跟上。今年的主旋律是生产力的变革高生产力场景的持续突破。更长程的任务、更强调多 Agent 之间的协作这些是 2026 年的核心叙事。端侧小模型会爆发但那是支线。关于隐私问题她的思路是端云混合。简单的、涉及隐私的任务放在本地用小模型跑复杂的、高创造力的任务上云端用大模型。这也是为什么她认为开源如此重要因为这件事需要更多人一块做不是某个公司能独自完成的。十一、最残酷的判断训模型这件事AI 也能做了访谈中最让人心里一沉的是罗福莉说的这段话她说自己以前认为训模型这种工作已经足够有创造力足够不会被 Skill 化、不会被 Workflow 化。但她现在发现AI 竟然也能做到。那它可不可以训出更强的模型自己左脚踩右脚就提升了她说这是一两年内会发生的事情。这句话听起来很平静但仔细想想相当震撼。如果连训练 AI 模型这种最前沿的研究工作都可以被 AI 自己完成那还有什么工作是绝对安全的但罗福莉本人对此并不悲观。她说即使 AGI 实现了她也想去做基础研究的公益组织去支持那些做突破性研究的人。她觉得纯享受生活应该挺无聊的总要做点有益的事情。被问到对未来的预期她说现在觉得把当下每天的研究都做好就觉得非常好。被问到有什么话想对 10 年后的自己说她回答未来很美好。然后补了一句我觉得这是一种天真乐观的勇气。写在最后读完这篇将近两万字的访谈我最大的感受是AI 行业正在经历一次真正的范式转移它的速度和深度可能超出大多数人的想象。从 Chat 到 Agent从预训练到后训练从单一模型到框架加模型的协同进化从封闭开发到开源社区的群体智能。每一个维度上都在发生剧烈的变化。而在这场变化中最有价值的能力可能是保持好奇心敢于亲手去体验新事物以及在不确定性中保持行动力。罗福莉的脑子是一个 Sliding Window Attention忘得非常快。有压力快的话一两个小时就过了慢的话一天就过了。但前提是第二天会有新的、有想象力的事情把它冲掉。也许这就是在这个时代保持清醒和前进的最好方式不纠结于昨天的判断不恐惧于明天的不确定把今天能做的事情做到最好。然后保持一种天真乐观的勇气。给大家说件事从今年开始我星球里会录制各种视频教程到目前为止录制的视频教程就已经有 20 多期了。最近非常火的 Agent Skill 视频教程也录制了 16 期了。加入我的星球社群「AIGC·掘金成长研习社」即可获取视频链接学习。最后介绍一下我的星球「AIGC·掘金成长研习社」可点击链接查看星球全面介绍主要分享三个板块的内容1、副业赚钱领域的内容。我做自媒体十几年了有很多副业赚钱方面的经验和干货而且每周都会定期详细带大家拆解一个副业赚钱案例持续更新的那种目前已经分享了上百篇跟副业赚钱相关的帖子和文章了。2、AI 落地和实操相关的内容。我在里面也分享了很多 AI的各种玩法和落地场景包括用 AI 做副业的案例也都有。3、个人成长。我会分享很多我做超级个体和自由职业的一些思考和成长类的内容目前我已经做自由职业 5 年了有太多的感慨和内容分享。如果你想学习如何搞副业如何使用 AI 甚至如何使用 AI 搞副业那一定要加入我这个超值的星球。目前已经更新了 1900 多条干货和文章了加入成员 1500。感兴趣的可以加入。限时优惠中原价 199 元今天加入可以立减 30 元只需要 169 元优惠券仅剩 10 多个优惠名额。我认为我的星球是目前副业和 AI 领域最超值和具有性价比的星球价格不贵同时内容也不比几千块钱的星球差。大家可以扫码查看支持 3 天无理由退款内容好不好先进来看看再说不适合自己退了也没毛病。

别再死记硬背了！用‘快递小哥’和‘高速公路’的故事，5分钟搞懂TCP/IP协议栈

快递小哥与高速公路：用生活故事拆解TCP/IP协议栈想象一下，你刚在电商平台下单了一箱新鲜水果。从商家打包到快递员送货上门的全过程，恰好完美映射了数据包在互联网中的奇幻漂流。这个看似简单的购物体验背后，隐藏着一套精密的数字…...

2026/4/27 9:05:01 阅读更多 →

Spring AI + SpringDoc + Knife4j 构建企业级智能问卷系统

一、为什么企业需要“智能问卷系统”？在很多企业数字化场景里，问卷系统并不是一个简单的 CRUD 系统，而是一个同时具备以下特征的平台型能力： • 业务侧需要快速创建活动问卷、调研问卷、满意度问卷、NPS 问卷、招聘测评问卷 • 运营侧需要 AI 辅助生成题目、题型建议、问…...

2026/4/27 9:04:36 阅读更多 →

UABEAvalonia：跨平台Unity资源编辑器的完整使用指南

UABEAvalonia：跨平台Unity资源编辑器的完整使用指南【免费下载链接】UABEA c# uabe for newer versions of unity 项目地址: https://gitcode.com/gh_mirrors/ua/UABEA UABEAvalonia是一款基于C#开发的跨平台Unity资源编辑器，专为现代Unity引擎版…...

2026/4/27 9:01:50 阅读更多 →

如何在7分钟内搭建专业级仓库管理系统：从零到生产就绪的完整指南

如何在7分钟内搭建专业级仓库管理系统：从零到生产就绪的完整指南【免费下载链接】GreaterWMS This Inventory management system is the currently Ford Asia Pacific after-sales logistics warehousing supply chain process . After I leave Ford , I start thi…...

2026/4/26 0:00:52 阅读更多 →

星露谷物语模组加载器SMAPI：轻松打造个性化农场体验的终极指南

星露谷物语模组加载器SMAPI：轻松打造个性化农场体验的终极指南【免费下载链接】SMAPI The modding API for Stardew Valley. 项目地址: https://gitcode.com/gh_mirrors/smap/SMAPI 想要为《星露谷物语》添加无限乐趣，却担心模组安装复杂、游戏崩…...

2026/4/26 0:01:52 阅读更多 →

终极指南：4步构建专业级浏览器资源捕获与管理工作流

终极指南：4步构建专业级浏览器资源捕获与管理工作流【免费下载链接】cat-catch 猫抓浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓（cat-catch&#x…...

2026/4/26 0:04:21 阅读更多 →