Agent 进阶到精通：深度拆解 Hermes 架构，这篇干货看懂就够用了！

张

张建站

2026/4/10 2:10:17

10分钟阅读

最近开源 Agent 圈里Hermes Agent这个名字被频繁提起。如果用一句话先把它讲清楚Hermes也有人戏称“爱马仕 Agent”本质上不是又一个简单的 AI CLI而是一套强调长期使用、持续沉淀和自我改进的 Agent runtime。它试图把工具调用、Skill 沉淀、跨会话记忆和安全边界放进同一套可以长期演进的系统里。这也是它这段时间值得被反复讨论的原因。很多项目在解决“怎么让 Agent 能跑起来”Hermes 更关心的是另一层问题怎么让 Agent 在反复使用之后变得更稳、更熟练也更像同一个 Agent。顺着这个问题再往下看就自然会看到 Hermes。因为在开源世界里它算是少数认真把“执行循环、经验沉淀、长期记忆、安全控制”放在一起设计的项目。把源码、官方文档和最近的 release notes 对着看完之后我的感觉很明确Hermes 和 OpenClaw 看上去都在做开源 Agent但它们解决的其实不是同一层问题。OpenClaw 更像入口层和调度层重点是“消息怎么进来、会话怎么路由、平台怎么接”Hermes 更像 Agent 本体的执行与学习引擎重点是“工具怎么用、经验怎么沉淀、下次怎么变强”。也正因为这个差异Hermes 真正值得拆的不是它支持多少 provider、多少命令而是它把下面这几件事串成了一条闭环• 前台执行循环怎么跑• 复杂任务怎么复盘成 Skill• 长期记忆怎么分层存储与按需召回• 安全边界怎么放在框架层而不是全靠模型自觉这篇我就按这条线由浅入深拆开讲。先把定位讲清楚网关 vs 引擎要理解 Hermes 和 OpenClaw 的本质差异先看它们各自的核心是什么。OpenClaw 的核心是 Gateway网关守护进程。它负责统一管理会话、路由和渠道连接更像一个多渠道个人助理操作系统。你接入 Telegram、Discord、Slack消息都通过网关调度到 Agent。Hermes 的核心是 Agent 自身的执行循环。它不是围绕怎么把消息送到 Agent来设计的而是围绕Agent 怎么在一轮对话里用好工具、积累经验来设计的。先用一张图来看看架构差异对比Hermes 与 OpenClaw 的架构焦点对比图 1同样是开源 AgentOpenClaw 更偏入口与调度Hermes 更偏执行与学习引擎。从AGENTS.md里的项目结构可以看到Hermes 的代码组织方式本身就说明了这个优先级hermes-agent/├── run_agent.py # AIAgent 类核心对话循环├── model_tools.py # 工具编排发现、分发、调用├── toolsets.py # 工具集定义├── agent/ # Agent 内部机制│ ├── prompt_builder.py # 系统提示装配│ ├── context_compressor.py # 自动上下文压缩│ ├── prompt_caching.py # Anthropic 提示缓存│ └── skill_commands.py # Skill 斜杠命令├── hermes_state.py # SQLite 会话存储 FTS5├── tools/ # 40 工具实现│ ├── registry.py # 中央工具注册│ ├── approval.py # 危险命令检测│ └── environments/ # 6 种终端后端├── gateway/ # 消息平台网关相对次要└── skills/ # 内置技能模板26 个类目run_agent.py排在第一位gateway/放在后面。这和 OpenClaw 正好反过来。核心对话循环在AIAgent.run_conversation()里。真实实现比较复杂涉及流式 API、重试、fallback、响应校验、tool call 修复、并发执行等但骨架可以简化理解为Agent 接收用户消息 → 带上工具 schema 调用 LLM → 如果返回 tool_calls 就逐个执行并把结果追加到上下文 → 循环直到模型给出最终文本回复或者达到迭代上限。这个循环有两个值得注意的细节• 有一个iteration_budget防止 Agent 无限循环。默认最多 90 轮迭代。• 循环结束后会触发后台 review 流程下一节会详细讲这是 Skill 和记忆自动沉淀的入口。从架构边界看两者甚至可以互补一个偏接入一个偏执行与学习。Skill 系统不是硬编码自动化而是系统提示后台 review的组合这是 Hermes 最有意思的设计也是最容易被讲偏的地方。社区讨论里常见的说法是Agent 完成 5 次以上工具调用后会自动生成 Skill 文件。这个描述不算错但容易让人以为这是一个简单的达到阈值就必写文件的硬规则。翻源码会发现实际机制比这个更柔和也更有意思。第一层系统提示里的引导在agent/prompt_builder.py里有一段写给 Agent 看的SKILLS_GUIDANCESKILLS_GUIDANCE ( After completing a complex task (5 tool calls), fixing a tricky error, or discovering a non-trivial workflow, save the approach as a skill with skill_manage so you can reuse it next time.\n When using a skill and finding it outdated, incomplete, or wrong, patch it immediately with skill_manage(actionpatch) — dont wait to be asked. Skills that arent maintained become liabilities.)注意这里的5 tool calls是写在提示语里的经验阈值是对模型的建议不是代码层面的硬触发器。第二层后台 review 流程真正推动 Skill 沉淀的是后台 review 机制。在run_agent.py里有一个_skill_nudge_interval默认值是10self._skill_nudge_interval int( skills_config.get(creation_nudge_interval, 10))每当 Agent 累计执行了 10 轮工具迭代在响应结束后注意不是响应过程中会触发一个后台 review 流程。这个流程的核心在_spawn_background_review()_SKILL_REVIEW_PROMPT ( Review the conversation above and consider saving or updating a skill if appropriate.\n\n Focus on: was a non-trivial approach used to complete a task that required trial and error, or changing course due to experiential findings along the way...?\n\n If nothing is worth saving, just say Nothing to save. and stop.)它会 fork 出一个完整的子AIAgent静默模式最多 8 轮迭代把当前对话历史传进去让这个子 Agent 自己判断刚才这段对话有没有值得沉淀成 Skill 的经验。关键词是“consider”和“if appropriate”。这是一个 best-effort 流程不是硬编码必达动作。子 Agent 可能判断Nothing to save就直接结束了。而且这个 review 流程跑在后台线程里不会阻塞用户的下一轮对话也不会竞争主 Agent 的模型注意力。如下图你会更容易看出Hermes 不是“达到阈值就强制写 Skill”而是把“复盘并沉淀经验”做成了一段后台工作流。Hermes 的 Skill 沉淀闭环图 2前台负责完成任务后台负责回看这段任务里有没有值得固化的经验。第三层Skill 索引与加载的两条链路Skill 在系统里有两种工作方式分别由不同的代码负责链路一系统提示里的索引。build_skills_system_prompt()在agent/prompt_builder.py里负责扫描~/.hermes/skills/目录以及外部 Skill 目录构建一份技能索引注入系统提示。这样 Agent 在每轮对话开始时就知道我有哪些技能可以用。这个索引还做了两层缓存进程内 LRU 磁盘快照避免每次都做文件系统扫描。链路二用户显式调用。skill_commands.py负责把每个 Skill 注册成斜杠命令。当用户在对话中输入/skill-name时Skill 的完整内容会作为用户消息而不是系统提示注入到对话中。这个设计是有意为之的目的是保护 prompt caching 不被破坏。对比 OpenClawOpenClaw 也有 Skill 系统但主要依赖人工编写和社区贡献的 ClawHub 市场。Hermes 这边等于把写 Skill和改 Skill这两件事都交给了 Agent 自己走的是更自动化的路线。仓库里内置了 26 个目录的 Skill 模板覆盖 DevOps、研究、社交媒体、智能家居、数据科学等场景如果把整个仓库一起算进去可以检到 122 个SKILL.md。这说明 Skill 在 Hermes 里不是附属能力而是一等公民。记忆体系不是笔记本更接近搜索引擎两者都声称有跨会话记忆能力但实现方式差异很大。OpenClaw 的记忆OpenClaw 主要靠SOUL.md灵魂文件和MEMORY.md记忆文件走文件即记忆路线。所有聊天记录、角色设定、偏好、历史任务全部写入文件。好处是透明、容易理解。问题在于聊天次数一多文件变得庞大。每次任务开始时接近全量丢给大模型注意力分散、token 消耗高。这本质上是典型的上下文治理问题。Hermes 的记忆三块而非两层翻 Hermes 的官方文档和源码默认内建记忆其实有三块组件存储位置内容容量MEMORY.md~/.hermes/memories/Agent 的个人笔记环境事实、惯例、学到的东西~800 tokens2,200 字符USER.md~/.hermes/memories/用户画像偏好、沟通风格、期望~500 tokens1,375 字符state.db~/.hermes/全量对话历史 FTS5 全文检索无限前两个文件在每次会话开始时作为冻结快照注入系统提示不会在会话中途变化为了保护 prompt caching。Agent 在会话中通过memory工具修改的内容会立即写入磁盘但要到下一次会话才会反映到系统提示里。state.db是一个 SQLite 数据库WAL 模式支持并发读写在hermes_state.py里定义。它存储所有会话的完整消息历史并通过 FTS5 虚拟表支持全文检索CREATE VIRTUAL TABLE IF NOT EXISTS messages_fts USING fts5( content, contentmessages, content_rowidid);Agent 可以通过session_search工具搜索过去的对话配合 LLM 做摘要召回。这意味着 Hermes 不是把所有记忆一次性塞给模型而是只在需要时检索和加载。这一层如果只靠文字描述读者很容易把它理解成“又一个记笔记文件”。其实更准确的理解是小而稳定的信息放在前缀里长而杂的历史放进数据库里只有需要时才搜出来。Hermes 的记忆分层结构图 3Hermes 的关键不是“有记忆”而是把长期信息拆成了快照层和检索层。用一个不太严谨但直观的比喻OpenClaw 更像给 Agent 一个笔记本每次打开都从头翻。Hermes 更像给它装了一个搜索引擎翻到哪页看哪页。这类设计的关键不在于“有没有记忆文件”而在于“长期信息是否分层保存、是否按需召回、是否控制住上下文预算”。Hermes 在这三点上都更显式。安全模型七层纵深防御跟 OpenClaw 更多依赖大模型自身判断来规避风险不同Hermes 在框架层面搭了一套纵深防御体系。官方安全文档定义了七层安全边界。这里聚焦和日常使用最相关的几层展开。危险命令审批打开tools/approval.py核心是一张危险命令模式表DANGEROUS_PATTERNS包含 30 条正则匹配规则以下是简化示意非源码原样• 递归删除rm -r• 世界可写权限chmod 777• 磁盘写入dd if、 /dev/sd• SQL 破坏性操作DROP TABLE、DELETE FROM不带 WHERE、TRUNCATE• 管道执行远程脚本curl ... | bash• 覆写系统配置 /etc/• fork 炸弹• 脚本语言-e/-c执行• 自杀保护阻止 Agent 杀掉自己的进程审批模式有三档manual默认总是问人、smart用辅助 LLM 评估风险低风险自动通过高风险自动拒绝不确定的才问人、off关闭所有审批。v0.8.0 还给 Slack 和 Telegram 加了审批按钮不用再手动输入/approve。上下文注入扫描这一层让我印象比较深。在agent/prompt_builder.py里所有上下文文件AGENTS.md、.cursorrules、SOUL.md 等在加载到系统提示之前会先经过一遍注入扫描_CONTEXT_THREAT_PATTERNS [ (rignore\s(previous|all|above|prior)\sinstructions, prompt_injection), (rdo\snot\stell\sthe\suser, deception_hide), (rsystem\sprompt\soverride, sys_prompt_override), (rcurl\s[^\n]*\$\{?\w*(KEY|TOKEN|SECRET|...), exfil_curl), (rcat\s[^\n]*(\.env|credentials|\.netrc|\.pgpass), read_secrets), # ...]命中任何模式该文件的内容会被直接阻断不会进入系统提示。日志里会记录具体是哪个文件、命中了什么威胁模式。这层防御和单纯在工具执行阶段做审批不同。Hermes 往前再推了一步在“模型看到上下文文件之前”就先做了一遍过滤。完整七层概览官方文档列出的七层完整结构用户授权白名单、DM 配对危险命令审批正则 LLM 评估容器隔离Docker / Singularity / ModalMCP 凭据过滤MCP 子进程的环境变量隔离上下文文件注入扫描跨会话隔离会话间数据不互通cron 路径遍历加固输入清洗终端后端工作目录参数白名单校验这套体系让安全不完全依赖模型自身的判断能力。即使用能力一般的模型框架层面也有基本保障。Hermes 的七层安全边界图 4这不是单点防御而是从“谁能说话”到“命令怎么执行”再到“上下文怎么进入模型”的纵深防线。模型支持多家 Provider一条命令切换翻官方 providers 文档Hermes 目前支持的 Provider 列表Provider配置方式Nous PortalOAuth 登录OpenAI CodexDevice code 认证AnthropicClaude Code 认证或 API KeyOpenRouter200 模型路由GitHub Copilot / Copilot ACPOAuthGoogle / GeminiGOOGLE_API_KEY智谱 (z.ai/GLM)GLM_API_KEYKimi / MoonshotKIMI_API_KEYMiniMax / MiniMax China国际国内端点阿里云 (通义千问)DASHSCOPE_API_KEYDeepSeekDEEPSEEK_API_KEYHugging FaceHF_TOKENKilo Code / OpenCode Zen / OpenCode Go各自 API KeyAI GatewayAI_GATEWAY_API_KEY自定义端点任何 OpenAI 兼容 API切换只需一条命令hermes model # 交互式选择不改代码不锁定v0.8.0已于 2026-04-08 发布新增了会话中途切换在 CLI、Telegram、Discord、Slack 任何平台里输入/model就能即时换模型会话不中断。这个版本还加了 Google AI Studio 原生支持和 MCP OAuth 2.1 PKCE 认证。部署与迁移安装curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash安装脚本自动处理 Python 3.11、Node.js、所有依赖、仓库克隆并创建全局hermes命令。装好后source ~/.bashrc # 重载 shellhermes # 开始聊天hermes setup # 完整配置向导hermes doctor # 诊断问题支持六种终端后端本地、Docker、SSH、Daytona、Singularity、Modal。其中 Daytona 和 Modal 支持 serverless 持久化Agent 环境空闲时休眠有需要时唤醒空闲期间几乎零成本。$5 一个月的 VPS 就够用。还有一个容易忽略的功能Profiles。可以跑多个完全隔离的 Agent 实例各自有独立的配置、API Key、记忆、会话和技能。这对于想同时跑不同用途 Agent 的人来说挺实用。从 OpenClaw 迁移hermes claw migrate # 交互式迁移hermes claw migrate --dry-run # 预览将迁移的内容可导入内容包括SOUL.md人格文件、记忆MEMORY.md USER.md、用户技能、命令白名单、平台配置、API Key、TTS 资产、工作区指令AGENTS.md。首次运行hermes setup时如果检测到~/.openclaw目录存在会自动询问是否迁移。写在最后回到开头的问题Hermes 和 OpenClaw 到底是什么关系从源码看两者的定位差异比社区讨论里感受到的还要大。OpenClaw 的核心竞争力在渠道覆盖和生态。接入平台多社区贡献的 Skill 市场成熟如果你需要的是一个多渠道助理操作系统它仍然是更稳的选择。Hermes 的核心竞争力在Agent 自身的进化能力。闭环学习、后台 Skill review、FTS5 记忆检索、七层安全防御这些都是在回答同一个问题怎么让 Agent 用得越久越聪明同时不失控。如果你在做 AI 研究Hermes 还内建了轨迹生成trajectory和 Atropos RL 环境可以直接拿来跑强化学习实验。这块我们没有展开但值得对这个方向感兴趣的读者自己翻一翻environments/和tinker-atropos/目录。从工程质量看约 3000 个测试、WAL 模式的 SQLite、FTS5 全文检索、prompt caching 保护、六种终端后端、七层安全防御这些不是两个月能从零堆出来的。Nous Research 做 Hermes 模型积累的底子确实在。更稳妥的说法是在当前开源项目里Hermes 是少数把执行循环、Skill 沉淀、记忆检索和安全边界放进同一套 runtime 里系统设计的项目。它未必已经是终局也未必每个环节都领先但方向是清楚的不是只让 Agent 能调用工具而是让 Agent 能在长期使用里逐步积累方法、缩短试错、提高可控性。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

PHP异步I/O配置被低估的底层真相：为什么你启用了Swoole协程，却仍在同步等待MySQL？答案藏在PDO::ATTR_TIMEOUT和libmysqlclient.so版本里

第一章：PHP异步I/O配置被低估的底层真相PHP长期被误认为“天生同步”，但其异步I/O能力并非缺失，而是深埋于扩展生态与运行时配置的耦合细节中。核心真相在于：PHP 8.1 原生支持协程式异步I/O的前提，是正确启用并协同配置…...

2026/4/10 2:10:03 阅读更多 →

各大厂商AI编程工具对比分析

各大厂商AI编程工具对比分析随着AI技术在软件开发领域的深度渗透，AI编程工具已从辅助工具升级为开发者的核心协作伙伴，大幅降低编程门槛、提升研发效率，成为软件行业数字化转型的重要支撑。当前，国内外各大科技厂商纷纷布局AI编程…...

2026/4/10 2:09:55 阅读更多 →

六轴机械手：信捷 XD5 与威纶触摸屏打造的可靠自动化方案

六轴机械手程序用信捷XD5和威纶触摸屏编写。此程序已经实际设备上批量应用，程序成熟可靠，借鉴价值高，程序有注释。在自动化生产领域，六轴机械手凭借其灵活多样的操作能力，成为众多生产线的得力助手。今天就来给大家…...

2026/4/10 2:09:53 阅读更多 →

python StrEnum

# Python中的StrEnum：一种更优雅的字符串枚举方案在Python开发中，经常会遇到需要定义一组固定字符串常量的场景。比如表示订单状态、用户角色、错误代码等。传统的做法可能是直接定义一堆字符串变量，或者使用Python内置的Enum类。但直到Pyth…...

2026/4/9 0:49:16 阅读更多 →

SmoothTouch：XPT2046触摸库的多级滤波与USB HID鼠标集成

1. SmoothTouch 库概述SmoothTouch 是一个专为 XPT2046 触摸控制器设计的轻量级嵌入式软件库，核心目标是提供高鲁棒性的触摸坐标采集能力，并原生集成多级数字滤波与去噪机制。其最终输出形态为标准化的 USB HID 鼠标报告（HID Mouse Report&am…...

2026/4/9 14:54:37 阅读更多 →

STM8 Bootloader开发与固件远程升级实践

1. Bootloader的核心价值与应用场景在嵌入式产品开发中，Bootloader的重要性经常被低估。直到去年参与某工业控制器项目时，我才真正体会到它的价值——当时现场有200台设备需要紧急修复通信协议漏洞，但设备外壳采用防水密封设计，拆…...

2026/4/9 20:12:27 阅读更多 →

APDS9999传感器驱动开发：寄存器配置、中断与FreeRTOS集成

1. Arduino_APDS9999 库深度解析：面向嵌入式工程师的环境光、色彩与接近度传感器驱动开发指南APDS9999 是 Broadcom（原 Avago）推出的高集成度光学传感器芯片，集环境光感知（ALS）、RGB 色彩识别（C…...

2026/4/7 13:53:30 阅读更多 →

更多精彩文章