AI Agent 的操作系统:Harness Engineering 深度拆解
系列导读这是一个 8 篇的 CSDN 重量档连载总量约 56000 字围绕 “Harness Engineering” 这个 2025-2026 年 AI 工程圈正在形成的新范式展开方法论梳理 一手项目实证。所有实例都来自我真实运行了 6 个月的两个项目OpenClawAI native 工作流引擎和 DocCenter本地 HTML 文档中心。每篇都附完整可运行的代码片段。为什么要写这个系列过去两年我踩过的坑几乎都可以归结为一句话以为自己买了个模型其实需要的是一整套操作系统。错觉真相“模型强到一定程度就够了”模型只是 CPU还需要内存、磁盘、中断、进程调度“Prompt 写好就行”Prompt 只是系统调用上面还有用户态、内核态“上下文越长越好”上下文不是内存是注意力预算“Agent LLM 工具”Agent Model×Harness缺一个都跑不起来Harness Engineering正在变成这套操作系统的统称。它解决的不是单点 Trick而是整套工程框架如何让非确定性模型在确定性系统里可靠跑起来。全系列地图#标题核心概念我的实例字数01Agent Model Harness为什么你的 Demo 活不过一周Harness 定义与三阶段演进CodeBuddy 装完就丢到 Skill 体系的进化~600002确定性外壳 × 非确定性内核我凌晨 3 点补的那道护栏状态机 概率模型的混合架构git push 红线 / Skill 校验 / 禁令清单~700003Checkpoint 不是为了续跑是为了让大脑 fsyncCheckpoint 与幂等性daily-dream 完整源码 MEMORY.md 精炼~800004Task Loop为什么我把心跳拆成三层Task Loop 五大机制哨兵/学习/做梦 三层心跳架构~800005上下文不是内存是注意力预算Context Engineering 四大模式CLAUDE.md 自动注入 Token 统计~700006独立 Evaluator为什么模型不能自己给自己打分三 Agent 架构 自评泡泡classroom-article-writer-v2 自检机制~650007五大反模式我踩过的坑和爬出来的路反模式与陷阱MckEngine Inches / Playwright / AI Slop 五大事故~750008Big Model vs Big Harness我赌 Harness 不会消失路线之争与未来演化Claude Design / Hermes / OpenClaw 三家对比~6000读者画像与阅读建议你适合读这个系列吗✅ 你适合做过 Agent Demo 但上线后天天救火对 Prompt Engineering 已经吃透想看下一层读过 Anthropic Constitutional AI / OpenAI Cookbook但觉得还缺一层结构正在自研 Agent 产品苦于没有可复用的工程脚手架❌ 你不适合只想抄 Prompt 模板快速出活把 LLM 当黑盒调用不想碰工程侧纯研究背景不关心生产环境稳定性阅读路径推荐只有 1 小时读 01 08掌握框架 未来判断有半天读 01 03 04 07这是硬货四件套能读一周按顺序通读并 fork 每篇配套代码跑一遍工程团队培训以 01 开场03/04 深讲06 做设计复盘教材我的承诺不讲你可以 Google 到的话Harness 原文已经够好我只讲“原文之外 我踩过的坑”所有代码真实可跑不是伪代码不是示意是我本机跑了 6 个月的生产脚本所有观点可被反驳每篇末尾我自己攻击自己 3 条欢迎读者继续攻击