龙虾下半场(一):沙箱不难,把“恢复沙箱“做到Anthropic的水准才难
很多事情认知不够就想当然地想得简单。这是Agent火起来之后我的一个心得。但是Agent有件事被忽视了因为业界讨论AI的声音主要来自做模型的人不来自做Agent基础设施的人。让Agent任务跑得好听上去一句话轻飘飘背后是越深入越复杂。说人话就是Agent用起来的标志就是上规模。好消息是既然大而全的讨论难周全我们就分几篇《龙虾下半场》系列之沙箱不难把恢复沙箱做到Anthropic的水准才难。这里的恢复是精确恢复还有好消息是有Anthropic的Claude Managed Agent可以对标。那开始吧这种能跑且给少量人用的沙箱差不多3个月3个人够了大神速度另行讨论。像北美E2B公司AI创业公司的内部沙箱都是轻量级起家早期像Modal公司这种通用云函数平台都被用来搭沙箱要求不高的话可凑活玩要求高的话就不合适了。比如Agent之前调用过『发邮件』工具。恢复时如果重复再做一遍邮件被发出两次。所以恢复必须知道哪些已经做过哪些没做过精确从中断点继续。这事做好牵扯到一件事不在一台机器上完成而是拆给多台机器同时做这些机器还得互相配合保持一致。而且Agent这件事天生大规模一家企业有1000员工同时用Agent每个跑在自己的沙箱里这就是1000个沙箱同时存在每个沙箱的状态计费监控安全要被精确管理。我把『恢复沙箱继续跑』这件事拆开咱们一起感受一下工程量。也就是它的分量。这件事值不值钱没做过工程的人也有判断的价值——因为它最终决定了Agent时代哪些公司能站住哪些站不住。由于细节过多我会大量使用数字标号前方高能预警。话说Agent在沙箱里跑到一半沙箱销毁了下次用要恢复且恢复到完全一样的状态 。意味着什么?也就是沙箱销毁那一瞬间有哪些东西或者说有哪些东西『同时存在』1.内存里的变量值2.已经写到磁盘的文件3.正在执行的进程4.已发起但还没收到响应的网络请求5.浏览器的当前页面cookies缓存6.数据库连接7.已持有但还没释放的锁8.临时文件9.环境变量恢复时这些东西全部要『复原』且要复原到精确不多不少不能错位。这就是真正的难点。再看CMA这种1.真正的多租户隔离几千用户互不影响2.精确的状态恢复从中断点继续不是从头重来3.完整的可观测性安全防护合规审计4.99.9%以上SLA每年宕机小时数个位数5.自动故障转移『恢复沙箱』真是表面简单上手一做甩出泪来。很棘手的问题很多比如保存什么何时保存每一步决策需要资深架构师推敲很久。第一个工程难点保存什么不是所有状态都能保存也不是所有都需要保存精细的取舍。这里就可以分三类第一类最好保存的;1.『恢复沙箱』文件系统快照让重启后文件结构一致2.内存中的临时计算结果第二类必须保存的;做错任何一个选择要么数据丢失要么存储爆炸。第二个工程难点何时保存不能等沙箱销毁时才保存那时候可能已经来不及了宕机。保存必须是持续的这又分好几种方法。猛一听选择很多可惜每种都有代价是单机数据库还是分布式存储读写比例是多少高峰流量是平均流量的几倍。每一个变量都会改变最优答案。CMA可能用的是某种混合策略这是Anthropic的工程秘密不过可以肯定的是调出这个平衡点的工程师团队不是想清楚就完了。另外还有『如何序列化』的难题把活的内存状态变成可存储的字节流简单数据好办复杂活物极难这里不展开。这些每一个都是独立的工程难题。沙箱恢复时这些复杂活物有的能用快照有的只能放弃重启后重建所以这事很难。工程难点之三如何精确恢复恢复时要让新启动的沙箱精确达到原来的状态。1.启动一个一模一样的容器2.加载存储的事件日志3.重放replay所有日志中的操作4.把序列化的数据反序列化回内存5.重建网络连接6.重建数据库连接7.把文件系统恢复到对应的快照8.让Agent知道它现在在哪一步好吧某些操作还不是幂等的这是分布式系统里著名的『精确一次』难题重放可能产生副作用。这些难点归纳都很头疼。管理者不懂还非要逼技术团队那AI送他的大礼就是一堆屎山。不过有人背锅就行了谁还不是职场高手。很多厂商把OpenClaw『魔改』成团队版/企业版这条路和CMA的路完全不同值得仔细对比。『魔改』1.拿OpenClaw开源代码作为基础2.『补丁』企业功能3.托管部署到自家云上4.贴品牌加UI直接做成『团队版』上线。某Agent团队技术负责人告诉我『核心团队其实就几个人成本低开发快用户上手快OpenClaw的核心代码不用自己写改改就能上线而且群众基础好有学习曲线优势。还有差异化容易加点行业特色功能医疗版或者直接上一体机。缺点大家也都知道但是公司没有资源在此投入更愿意给模型团队。』大家的共识是本质上仍是OpenClaw架构首先OpenClaw本来是单用户单机的改成多用户需要外挂数据库等打补丁方式再者OpenClaw的『运行时』和『环境』是耦合在一起的要改成云上多租户沙箱需要把这两层拆开重新设计这相当于把核心架构重写还有可扩展性不行大规模并发就挂了。对比一下走CMA这种路线体现出Agent时代『工程』和『创新』边界模糊相互交融CMA它的设计起点完全不同不是先做出一个Agent再考虑怎么扩展给企业用而是从第一天起就为多用户企业级大规模设计。具体看CMA 在三层都重新做了:最上面一层是抽象。CMA 用四件套中间一层是底层基础设施。多租户状态管理沙箱隔离计费可观测性这些不是后加的功能是从零设计时就考虑进去的能力。最外面一层是接口。对外只暴露几个简洁稳定的公开接口简洁稳定都要能夸的点综合工程能力很强。直接对比这两条路维度魔改OpenClawCMA理念开发速度眼前快日后慢眼前慢日后快架构补丁式从底层设计多用户隔离改装的原生的沙箱质量改装的原生的状态管理外挂数据库只追加日志可观测性改装的原生的接口稳定性跟随自己控制长期稳定成本开发成本低单位运营成本高开发成本高单位运营成本低这两种路径不是对立的而是产业链的不同位置华为一个高管和我说魔改版这种级别的AI创新养活不了华为华为这种规模的企业肯定要Agent原生的基础设施。而阿里云则在4月就推出企业级智能体构建平台JVS Crew。我想试试后面再写一篇详细分析。回到文章开头为什么说企业级Agent把分布式系统所有难题召唤回来了。技术角度的回答是Agent是长任务有状态大规模并发多组件协作成本敏感这是五个buff是分布式系统最难处理的工况了。这两条路会怎么演化我的判断短期看中国市场魔改版快速占领目标市场CMA理念这种的压倒性优势体现不出来。另一部分魔改版会找到自己的细分领域继续生存长期的话基础设施层稳定在3家之内这是软件产业过去30年反复发生的剧本。《AI产品和技术模块》1.Kimi Agent产品很厉害然后呢2.搞懂“记忆”必看吃透Engram坐等Deepseek新模型3.实属踩踏了深水炸弹Seedance掩盖Seed2.04.少瞎吹系列AI智能体基础infra就不基础5.Harness内心OS大模型只管想剩下烂摊子全我的6.纠缠软件是什么Agent还是Harness?7.排行榜是别人的手感是自己的Kimi K2.6体感报告8.Agent才不会赢家通吃证据来了……《具身智能》1.“26年具身智能根本做不过来”含陶大程教授独家2.漫画大模型“强控”具身智能机器人《AI医疗》1.独家深度丨夸克健康大模型调研报告2.熬夜三年肝损害AI博主也靠AI学“续命”医学知识3.为什么AI能预警心脏主动脉“血管炸弹”4.对话作者全球首个开源手术视频大模型SurgMotion第一期《AI算力系列》1.对抗NVLink简史10万卡争端英伟达NVL72超节点挑起2.英伟达『照抄者死』阿里华为AI集群狂飙『全解耦』3.阿里华为『血战』英伟达AI超节点悲观者正确乐观者赚钱4.抢在英伟达护城河合拢前硅光的冲刺与最后窗口5.OCP现场 l 北美AI巨头罕见共识ESUN为利益『握手』6.为什么有些『闪断的锅』硅光不背?7.为了Token阿里云竟然出了一个TPN