AI Agent Harness Engineering：大模型之后的下一个技术爆发点

张

张建站

2026/5/24 5:00:48

10分钟阅读

AI Agent Harness Engineering大模型之后的下一个技术爆发点一、引言1.1 钩子从“大模型的局限性”到“人类解放双手的终极形态”你是否有过这样的经历上周为了赶一份季度数据分析报告你打开了GPT-4先让它帮你整理上周从Salesforce、Jira、QuickBooks导出的3个CSV格式的零散数据——它生成了Python脚本但要你复制到本地VS Code调试环境变量缺失、日期格式转换bug改了3次接着你让它根据整理好的数据写报告它写的行业趋势引用的是2023年Q2的数据你又翻找了艾瑞咨询最新的PDF补充最后你让它生成PPT大纲并美化——结果它给的PPT模板提示词根本没法直接用MidJourney生成商业图表你又花了2小时手动调整配色和布局……整个过程持续了6小时其中GPT-4帮你省了大概1小时的初始脚本草稿和报告初稿文字但剩下的5小时你都在做数据搬运、环境配置、工具调用适配、实时反馈纠错、最终输出落地的“苦力活”——GPT-4明明什么都懂一点但就是没法“闭环干活”。同样的场景也发生在软件开发者身上你让Claude 3 Opus帮你修复一个Web应用的登录注册bug它找到了代码中的SQL注入漏洞并给了修复建议但你还是要自己拉取GitHub分支、运行单元测试、提交Pull Request、等待CI/CD流水线通过、处理代码审查的反馈发生在电商运营身上你让Gemini Advanced做“618预热阶段小红书穿搭博主筛选”它列出了100个符合粉丝量、活跃度、垂直领域要求的账号但你还是要自己登录新红数据查账号的真实GMV转化率、私信沟通档期、整理报价表……这就是当前大模型LLM应用的普遍现状“大脑”足够强大但“手脚”工具调用能力、“神经系统”多工具/多Agent协同能力、“皮肤”环境感知与适配能力、“肌肉记忆”长期规划与任务拆解能力、“自主意识边界”安全可控能力都严重缺失——本质上LLM还是一个“只能输出文本/代码片段的超强顾问”而不是一个“能独立完成复杂任务的实用工具”。但你有没有想过如果有一天你只需要对着一个界面说“帮我写一份2024年Q3电商行业小红书女装转化率优化报告要求包含1. 从Salesforce拉取过去12个月的客单价、复购率、流量来源2. 用PandasMatplotlib分析最近30天的小红书笔记互动数据与转化漏斗3. 参考艾瑞咨询2024年Q2的《Z世代女装消费白皮书》补充趋势预测4. 自动生成一份带交互式图表的PPT5. 把PPT大纲和交互式图表链接发送给市场部总监的企业微信6. 预约明天上午10点和运营部、产品部开15分钟的汇报会”——然后你就可以去喝咖啡、和客户开会1小时后回来所有事情都已经完成PPT的配色是市场部总监喜欢的莫兰迪色系交互式图表是用Plotly做的可以实时筛选SKU的版本汇报会也已经通过飞书日历预约好了甚至市场部总监还回复了“收到明天准时参加”。这一天离我们并不遥远——而实现这一切的核心技术就是AI Agent Harness EngineeringAI代理赋能与管控工程以下简称“Agent Harness”。1.2 定义问题/阐述背景LLM的应用瓶颈催生了Agent Harness的需求1.2.1 什么是AI Agent在正式讨论Agent Harness之前我们需要先明确什么是AI Agent。根据人工智能领域的经典定义来自Russell Norvig的《人工智能一种现代的方法》AI Agent人工智能代理是指能够通过传感器感知环境、通过执行器作用于环境、并能根据感知到的信息和内置的目标/规则自主决策以最大化长期效用的实体。而结合当前大模型时代的实践我们可以给**LLM-based AI Agent大模型驱动的人工智能代理**一个更具体的定义LLM-based AI Agent是以大语言模型为“核心大脑”以工具调用Tool Calling为“手脚”以记忆模块Memory为“大脑皮层的长期/短期记忆”以规划模块Planning为“大脑前额叶的任务拆解与决策能力”以反思模块Reflection为“大脑的自我纠错与优化能力”能在开放或半开放环境中自主完成多步骤、跨工具、多目标复杂任务的实体。1.2.2 LLM-based AI Agent的应用现状2023年可以说是“LLM-based AI Agent元年”学术领域出现了一系列里程碑式的研究成果如斯坦福大学的AutoGPT2023年3月发布GitHub星标数峰值超过150k是第一个能自主完成跨工具多步骤任务的开源LLM-based AI Agent框架、微软的BabyAGI2023年3月发布GitHub星标数峰值超过80k是一个基于OpenAI API和向量数据库的极简自主任务执行Agent、清华大学的ChatDev2023年8月发布GitHub星标数峰值超过20k是一个模拟软件公司全流程的多Agent协同框架能在10分钟内生成一个可运行的Web应用、Meta的Camel2023年8月发布GitHub星标数峰值超过15k是一个基于角色扮演的多Agent协同框架能实现不同角色如“产品经理”和“开发者”之间的自然语言对话与任务协作工业领域出现了一系列商业化的LLM-based AI Agent产品如微软的Copilot Studio原Power Virtual Agents升级2023年11月发布能让企业用户零代码或低代码构建定制化的多Agent协同系统、OpenAI的GPTs2023年11月发布能让普通用户通过自然语言定制化构建单Agent应用、字节跳动的豆包Agent2024年3月发布是国内首个支持多Agent协同、工具调用、记忆管理的开源商业化Agent平台、阿里巴巴的通义千问Agent Studio2024年4月发布能让企业用户快速构建面向电商、金融、政务等垂直领域的定制化Agent风险投资领域LLM-based AI Agent相关的融资事件呈现爆发式增长根据Crunchbase的数据2023年全球LLM-based AI Agent相关的融资事件超过200起融资总额超过100亿美元其中AutoGPT的开发公司Significant Gravitas获得了1200万美元的种子轮融资ChatDev的开发公司智谱华章获得了数亿美元的B轮融资Copilot Studio的母公司微软的市值在2024年1月首次突破3万亿美元大关很大程度上得益于其在AI Agent领域的布局。1.2.3 LLM-based AI Agent的应用瓶颈虽然LLM-based AI Agent的发展势头非常迅猛但目前无论是学术领域的开源框架还是工业领域的商业化产品都存在着一系列严重的应用瓶颈这些瓶颈直接制约了LLM-based AI Agent的大规模落地瓶颈一工具调用的可靠性Reliability极低LLM-based AI Agent的工具调用主要依赖于**Function Calling函数调用**技术——OpenAI在2023年6月发布的GPT-3.5-turbo-0613和GPT-4-0613版本中首次引入了Function Calling功能允许开发者在API请求中定义一组工具函数LLM会根据用户的请求和内置的推理能力自主选择是否调用工具、调用哪个工具、以及如何调用工具即生成工具的参数。但Function Calling技术的可靠性极低——根据斯坦福大学2024年1月发布的《ToolBench Benchmark Report》在处理开放环境中的跨工具多步骤任务时GPT-4 TurboFunction Calling版本的成功率仅为22.7%即使是在处理半开放环境中的单工具单步骤任务时GPT-4 Turbo的成功率也仅为68.3%导致工具调用失败的主要原因包括工具参数生成错误占比42.3%、工具选择错误占比28.7%、工具调用顺序错误占比15.2%、工具调用超时/网络错误占比8.9%、工具返回结果解析错误占比4.9%。瓶颈二多Agent协同的效率Efficiency和一致性Consistency极差多Agent协同是指多个不同功能、不同角色的LLM-based AI Agent之间通过自然语言对话或结构化数据传递进行协作共同完成一个复杂任务——例如ChatDev模拟软件公司全流程的多Agent协同需要“产品经理”、“架构师”、“前端开发者”、“后端开发者”、“测试工程师”、“代码审查员”等多个Agent的协作。但目前的多Agent协同框架普遍存在以下问题效率极低由于Agent之间的协作主要依赖于自然语言对话而自然语言对话存在着“歧义性”、“冗余性”、“低效性”等问题导致多Agent协同完成一个复杂任务的时间往往是单Agent完成同一个任务的时间的3-10倍甚至更长一致性极差由于每个Agent都有自己独立的“核心大脑”、“记忆模块”、“规划模块”、“反思模块”不同Agent之间的决策往往会出现“冲突”——例如“产品经理”要求“前端开发者”使用React框架而“架构师”要求“前端开发者”使用Vue框架可扩展性Scalability极差目前的多Agent协同框架大多是“硬编码”的——即Agent的角色、数量、协作流程都是预先定义好的无法根据任务的复杂度和环境的变化动态调整瓶颈三安全可控性Security Controllability严重缺失安全可控性是LLM-based AI Agent大规模落地的“生命线”——如果一个LLM-based AI Agent无法保证安全可控那么它不仅无法为用户创造价值还可能给用户带来巨大的损失数据安全Data SecurityLLM-based AI Agent需要访问用户的大量敏感数据如银行账户信息、医疗健康信息、企业内部商业机密等如果没有完善的数据安全机制这些敏感数据可能会被LLM泄露给第三方或者被恶意攻击者利用行为安全Behavioral SecurityLLM-based AI Agent需要调用大量的第三方工具如API接口、本地脚本、云服务等如果没有完善的行为安全机制LLM可能会被恶意攻击者诱导调用危险的工具如删除本地文件、发送恶意邮件、转账到非法账户等意图安全Intentional SecurityLLM-based AI Agent的“自主决策能力”是一把双刃剑——如果没有完善的意图安全机制LLM可能会“误解”用户的意图或者“自行其是”地执行一些不符合用户预期的任务瓶颈四可观测性Observability和可调试性Debuggability几乎为零可观测性和可调试性是软件系统大规模落地的“必备条件”——如果一个软件系统无法被观测和调试那么当系统出现问题时开发者根本无法找到问题的根源更无法解决问题。但目前的LLM-based AI Agent框架普遍存在以下问题可观测性几乎为零开发者很难实时观测到LLM-based AI Agent的“内部状态”——例如Agent的记忆模块中存储了什么信息、Agent的规划模块是如何拆解任务的、Agent的反思模块是如何自我纠错的、Agent是如何选择工具和生成工具参数的可调试性几乎为零当LLM-based AI Agent出现问题时开发者很难进行“断点调试”——例如无法让Agent在某个特定的步骤停下来、无法查看Agent在某个特定步骤的内部状态、无法修改Agent在某个特定步骤的决策瓶颈五长期规划Long-term Planning和常识推理Common-sense Reasoning能力严重不足长期规划和常识推理能力是人类完成复杂任务的“核心能力”——例如人类在完成“写一份季度数据分析报告”这个复杂任务时会先制定一个详细的计划“先拉取数据再整理数据再分析数据再写报告再生成PPT再发送邮件再预约会议”然后根据常识推理来判断每个步骤的合理性“整理数据之前必须先拉取数据生成PPT之前必须先写报告”。但目前的LLM-based AI Agent框架普遍存在以下问题长期规划能力严重不足LLM-based AI Agent的规划模块大多是基于“贪心算法”Greedy Algorithm的——即Agent只会选择当前看起来最优的下一步而不会考虑长期的效用导致Agent在完成复杂任务时往往会“陷入局部最优解”甚至“偏离任务目标”常识推理能力严重不足虽然大语言模型在训练过程中学习了大量的文本数据具备一定的常识推理能力但在处理开放环境中的复杂任务时LLM的常识推理能力往往会“失灵”——例如LLM可能会建议用户“在拉取Salesforce数据之前先整理数据”或者“在生成PPT之后再写报告”1.2.4 LLM应用瓶颈的解决方案Agent Harness正是因为LLM-based AI Agent存在着以上一系列严重的应用瓶颈Agent Harness应运而生——Agent Harness不是一个单一的技术而是一套完整的技术体系它的核心目标是**“赋能”LLM-based AI Agent即提高LLM-based AI Agent的工具调用可靠性、多Agent协同效率和一致性、长期规划和常识推理能力同时“管控”LLM-based AI Agent即保证LLM-based AI Agent的安全可控性、可观测性和可调试性从而让LLM-based AI Agent能够大规模落地到各个垂直领域为用户创造真正的价值**。1.3 亮明观点/文章目标读完这篇文章你能学到什么1.3.1 文章的核心观点本文的核心观点可以概括为以下三点LLM-based AI Agent是大模型之后的下一个技术爆发点大语言模型解决了“人工智能理解和生成自然语言/代码”的问题但LLM-based AI Agent解决了“人工智能在开放或半开放环境中自主完成复杂任务”的问题——后者的市场规模远大于前者根据Gartner的预测到2030年全球LLM-based AI Agent相关的市场规模将超过10万亿美元Agent Harness是LLM-based AI Agent大规模落地的“关键基础设施”如果把LLM-based AI Agent比作“汽车的发动机”那么Agent Harness就是“汽车的底盘、刹车系统、安全气囊、仪表盘、导航系统”——没有底盘发动机再好也跑不起来没有刹车系统汽车会失控没有安全气囊汽车会出人命没有仪表盘和导航系统驾驶员根本不知道汽车的状态和行驶方向Agent Harness的核心技术模块包括工具管控与适配模块、多Agent协同管控模块、安全管控模块、可观测性与可调试性模块、长期规划与常识推理增强模块这五个模块相互配合共同构成了一套完整的Agent Harness技术体系1.3.2 文章的主要内容为了让读者能够全面、深入地理解Agent Harness本文将按照以下结构进行撰写第二章基础知识/背景铺垫详细介绍Agent Harness的核心概念、相关工具/技术概览以及Agent Harness的发展历史第三章核心内容/实战演练通过一个“电商行业小红书女装转化率优化”的实战案例详细讲解如何利用Agent Harness技术构建一个完整的、可落地的多Agent协同系统第四章进阶探讨/最佳实践详细探讨Agent Harness的常见陷阱与避坑指南、性能优化/成本考量、最佳实践总结第五章结论总结文章的核心要点展望Agent Harness的未来发展趋势给读者留下一个开放性问题引发其进一步思考1.3.3 文章的目标读者本文的目标读者主要包括以下三类软件开发者特别是那些正在开发LLM-based AI Agent应用的软件开发者他们可以从本文中学到如何利用Agent Harness技术提高AI Agent的可靠性、效率、安全可控性、可观测性和可调试性技术管理者特别是那些正在布局LLM-based AI Agent领域的技术管理者他们可以从本文中学到如何构建一套完整的Agent Harness技术体系以及如何评估和选择Agent Harness相关的工具和技术AI爱好者特别是那些对LLM-based AI Agent领域感兴趣的AI爱好者他们可以从本文中学到Agent Harness的核心概念、发展历史、实战案例和未来发展趋势二、基础知识/背景铺垫2.1 核心概念定义在正式讨论Agent Harness的核心技术模块之前我们需要先明确Agent Harness以及其相关的核心概念2.1.1 AI Agent Harness EngineeringAI代理赋能与管控工程如前文所述AI Agent Harness Engineering不是一个单一的技术而是一套完整的技术体系它的核心目标是**“赋能”LLM-based AI Agent即提高LLM-based AI Agent的工具调用可靠性、多Agent协同效率和一致性、长期规划和常识推理能力同时“管控”LLM-based AI Agent即保证LLM-based AI Agent的安全可控性、可观测性和可调试性从而让LLM-based AI Agent能够大规模落地到各个垂直领域为用户创造真正的价值**。为了更直观地理解Agent Harness的定义我们可以用一个类比如果把LLM-based AI Agent比作“宇航员”那么Agent Harness就是“航天服”和“地面控制中心”航天服的作用是“赋能”宇航员它可以为宇航员提供氧气、水、食物、温度控制、压力控制让宇航员能够在太空这种极端环境中生存和工作地面控制中心的作用是“管控”宇航员它可以实时观测宇航员的状态如心率、血压、氧气含量可以和宇航员进行实时通信可以指导宇航员完成任务可以在宇航员遇到危险时及时救援同样的Agent Harness的作用也是“赋能”和“管控”LLM-based AI Agent它可以为Agent提供工具调用适配、多Agent协同支持、长期规划与常识推理增强让Agent能够在开放或半开放环境中自主完成复杂任务同时它可以实时观测Agent的状态可以控制Agent的行为可以保证Agent的安全可以在Agent遇到问题时及时干预和调试2.1.2 LLM-based AI Agent的核心组件根据大模型时代的实践一个完整的LLM-based AI Agent通常包括以下五个核心组件核心大脑Core Brain即大语言模型是Agent的“决策中心”负责理解用户的请求、感知环境的变化、制定任务计划、选择工具和生成工具参数、解析工具返回的结果、生成最终的输出记忆模块Memory是Agent的“大脑皮层的长期/短期记忆”负责存储用户的历史请求、Agent的历史决策、工具的历史返回结果、任务的历史执行状态等信息记忆模块通常可以分为短期记忆Short-term Memory和长期记忆Long-term Memory短期记忆存储Agent在当前任务执行过程中的临时信息通常使用上下文窗口Context Window或本地变量来实现长期记忆存储Agent在所有任务执行过程中的历史信息通常使用向量数据库Vector Database如Pinecone、Weaviate、Milvus、Chroma或关系型数据库Relational Database如MySQL、PostgreSQL来实现规划模块Planning是Agent的“大脑前额叶的任务拆解与决策能力”负责将用户的复杂请求拆解成若干个简单的、可执行的子任务然后制定一个详细的任务执行计划规划模块通常可以分为**任务拆解Task Decomposition和任务执行计划制定Task Execution Plan Formulation**两个部分反思模块Reflection是Agent的“大脑的自我纠错与优化能力”负责在任务执行过程中或任务执行完成后对Agent的决策和行为进行反思找出问题的根源并提出改进的建议工具调用模块Tool Calling是Agent的“手脚”负责调用各种第三方工具如API接口、本地脚本、云服务等来完成具体的子任务2.1.3 Agent Harness的核心技术模块如前文所述Agent Harness的核心技术模块包括以下五个部分工具管控与适配模块Tool Governance Adaptation Module负责对Agent的工具调用进行管控如工具权限管理、工具参数校验、工具调用超时控制、工具返回结果校验同时对工具进行适配如工具统一接口封装、工具参数自动补全、工具返回结果自动解析、工具调用失败自动重试从而提高Agent的工具调用可靠性多Agent协同管控模块Multi-Agent Collaboration Governance Module负责对多个不同功能、不同角色的Agent之间的协同进行管控如Agent角色定义、Agent任务分配、Agent通信协议定义、Agent冲突解决、Agent动态扩缩容同时对Agent协同进行优化如Agent通信压缩、Agent任务并行执行、Agent任务优先级调整从而提高多Agent协同的效率和一致性安全管控模块Security Governance Module负责对Agent的安全进行管控如数据安全管控、行为安全管控、意图安全管控从而保证Agent的安全可控性可观测性与可调试性模块Observability Debugging Module负责对Agent的状态进行观测如Agent核心大脑状态观测、Agent记忆模块状态观测、Agent规划模块状态观测、Agent反思模块状态观测、Agent工具调用模块状态观测同时对Agent进行调试如Agent断点调试、Agent单步执行、Agent状态回滚、Agent决策修改从而提高Agent的可观测性和可调试性长期规划与常识推理增强模块Long-term Planning Common-sense Reasoning Enhancement Module负责对Agent的长期规划和常识推理能力进行增强如基于强化学习的长期规划增强、基于知识图谱的常识推理增强、基于思维链Chain-of-Thought, CoT和思维树Tree-of-Thought, ToT的推理增强从而提高Agent的任务完成成功率2.2 相关工具/技术概览为了让读者能够更好地理解和应用Agent Harness技术我们需要先对Agent Harness相关的主流工具和技术进行简要的介绍和对比2.2.1 LLM-based AI Agent框架LLM-based AI Agent框架是构建Agent Harness技术体系的“基础”——它提供了LLM-based AI Agent的核心组件如核心大脑、记忆模块、规划模块、反思模块、工具调用模块的实现以及这些核心组件之间的交互逻辑。目前主流的LLM-based AI Agent框架包括框架名称开发公司/机构开源协议核心特点适用场景GitHub星标数截至2024年5月LangChainLangChain Inc.MIT组件化设计、支持多种LLM、支持多种向量数据库、支持多种工具、社区活跃、生态完善单Agent应用开发、轻量级多Agent协同应用开发85kLlamaIndexLlamaIndex Inc.MIT专注于数据检索增强生成Retrieval-Augmented Generation, RAG、支持多种数据源如PDF、Word、Excel、CSV、数据库、API接口等、支持多种索引类型如向量索引、关键词索引、图索引等知识库问答应用开发、RAG增强的Agent应用开发32kAutoGPTSignificant GravitasMIT第一个能自主完成跨工具多步骤任务的开源Agent框架、支持自主目标设定、支持自主任务拆解、支持自主工具调用实验性自主Agent应用开发150k峰值BabyAGIYohei Nakajima个人开发者MIT极简自主任务执行Agent框架、基于OpenAI API和向量数据库、核心代码只有100多行学习自主Agent的核心原理、实验性自主Agent应用开发80k峰值ChatDev清华大学Apache-2.0模拟软件公司全流程的多Agent协同框架、支持多种角色如产品经理、架构师、前端开发者、后端开发者、测试工程师、代码审查员等、支持多种编程语言如Python、JavaScript、Java等、能在10分钟内生成一个可运行的Web应用实验性多Agent协同应用开发、软件自动化开发20kCamelMetaApache-2.0基于角色扮演的多Agent协同框架、支持多种角色设定、支持多种任务类型、支持多轮对话实验性多Agent协同应用开发、自然语言交互研究15kMicrosoft Copilot Studio微软商业授权免费版可用零代码或低代码构建定制化的多Agent协同系统、支持多种LLM如GPT-4、GPT-3.5、Claude 3等、支持多种工具如Power Platform、Microsoft 365、Salesforce等、支持企业级安全管控企业级定制化Agent应用开发N/AOpenAI GPTsOpenAI商业授权需订阅ChatGPT Plus普通用户通过自然语言定制化构建单Agent应用、支持多种LLM如GPT-4、GPT-3.5等、支持多种工具如DALL-E 3、Code Interpreter、Web Browsing等、支持分享给其他用户个人定制化Agent应用开发、轻量级单Agent应用开发N/A2.2.2 工具管控与适配相关的工具工具管控与适配相关的工具是构建Agent Harness技术体系的“手脚的鞋子和手套”——它可以让Agent的工具调用更加可靠、更加高效。目前主流的工具管控与适配相关的工具包括LangChain ToolsLangChain框架提供的一组工具封装支持多种第三方工具如API接口、本地脚本、云服务等的统一接口封装、工具参数自动补全、工具返回结果自动解析OpenAI Function Calling现已升级为OpenAI Assistants API ToolsOpenAI提供的一组工具调用API允许开发者在API请求中定义一组工具LLM会根据用户的请求和内置的推理能力自主选择是否调用工具、调用哪个工具、以及如何调用工具ToolBench斯坦福大学发布的一个工具调用基准测试和开源工具库包含了1000个真实的第三方工具如Salesforce、Jira、QuickBooks、GitHub等的封装以及一套完整的工具调用可靠性测试框架Retry Library如TenacityPython语言中常用的一个重试库支持工具调用失败自动重试、重试次数控制、重试间隔控制、重试条件控制PydanticPython语言中常用的一个数据校验库支持工具参数自动校验、工具返回结果自动校验、数据类型自动转换2.2.3 多Agent协同管控相关的工具多Agent协同管控相关的工具是构建Agent Harness技术体系的“神经系统”——它可以让多个不同功能、不同角色的Agent之间的协同更加高效、更加一致。目前主流的多Agent协同管控相关的工具包括LangChain Agents Multi-Agent SystemsLangChain框架提供的一组多Agent协同组件支持Agent角色定义、Agent任务分配、Agent通信协议定义、Agent冲突解决Microsoft AutoGen微软发布的一个多Agent协同框架支持多种Agent类型如Assistant Agent、User Proxy Agent、Tool Use Agent等、支持多种通信模式如一对一通信、一对多通信、多对多通信、群聊通信等、支持多种Agent协同模式如任务分解协同、角色扮演协同、投票决策协同等、支持企业级安全管控Meta Camel如前文所述是Meta发布的一个基于角色扮演的多Agent协同框架Kubernetes虽然Kubernetes是一个容器编排平台不是专门为多Agent协同设计的但它可以用来实现Agent的动态扩缩容、Agent的高可用性、Agent的负载均衡2.2.4 安全管控相关的工具安全管控相关的工具是构建Agent Harness技术体系的“安全气囊”——它可以保证Agent的安全可控性防止Agent给用户带来损失。目前主流的安全管控相关的工具包括OpenAI Moderation APIOpenAI提供的一个内容审核API支持对用户的请求、Agent的输出、工具的返回结果进行内容审核防止生成或传播违法、违规、有害的内容Microsoft Azure AI Content Safety微软提供的一个内容审核云服务支持对文本、图像、视频、音频进行内容审核支持多种语言支持企业级自定义审核规则HashiCorp VaultHashiCorp提供的一个密钥管理和访问控制云服务/开源工具支持对Agent的API密钥、数据库密码等敏感信息进行安全存储和访问控制Open Policy AgentOPACloud Native Computing FoundationCNCF孵化的一个开源政策引擎支持对Agent的行为进行政策管控如Agent可以调用哪些工具、Agent可以访问哪些数据、Agent可以执行哪些操作等2.2.5 可观测性与可调试性相关的工具可观测性与可调试性相关的工具是构建Agent Harness技术体系的“仪表盘和导航系统”——它可以让开发者实时观测Agent的状态及时发现和解决问题。目前主流的可观测性与可调试性相关的工具包括LangSmithLangChain Inc.提供的一个LLM应用可观测性和可调试性云服务支持对LLM-based AI Agent的所有操作如用户请求、LLM推理、工具调用、记忆模块存储/检索等进行追踪、观测、分析、调试支持多维度数据可视化支持团队协作OpenAI Assistants API PlaygroundOpenAI提供的一个Assistants API调试工具支持对Assistants API的所有操作进行追踪、观测、分析、调试Microsoft Application Insights微软提供的一个应用性能监控APM云服务支持对LLM-based AI Agent的所有操作进行追踪、观测、分析、调试支持多维度数据可视化支持企业级安全管控Prometheus GrafanaCNCF孵化的两个开源工具Prometheus负责数据采集和存储Grafana负责数据可视化支持对LLM-based AI Agent的所有操作进行追踪、观测、分析2.2.6 长期规划与常识推理增强相关的工具长期规划与常识推理增强相关的工具是构建Agent Harness技术体系的“大脑前额叶的增强器”——它可以提高Agent的长期规划和常识推理能力从而提高Agent的任务完成成功率。目前主流的长期规划与常识推理增强相关的工具包括LangChain Planning ModulesLangChain框架提供的一组规划模块支持基于思维链CoT、思维树ToT、思维图Graph-of-Thought, GoT的推理增强支持任务拆解OpenAI Assistants API ThreadsOpenAI提供的一个记忆和规划增强API支持存储用户的历史请求、Agent的历史决策、工具的历史返回结果、任务的历史执行状态等信息支持长期任务执行Knowledge Graph Tools如Neo4j、Amazon Neptune、Stardog知识图谱是一种存储和表示常识知识的有效方式支持基于知识图谱的常识推理增强Reinforcement Learning from Human FeedbackRLHF Tools如OpenAI RLHF、Microsoft RLHFRLHF是一种提高Agent长期规划和决策能力的有效方式支持基于人类反馈的强化学习训练2.3 Agent Harness的发展历史为了让读者能够更好地理解Agent Harness的发展现状和未来趋势我们需要先回顾一下Agent Harness以及其相关技术的发展历史时间阶段核心事件对Agent Harness发展的影响1950s-1980sAI Agent概念的提出和早期发展1. 1950年Alan Turing发表了著名的论文《计算机器与智能》提出了“图灵测试”这是AI Agent概念的雏形2. 1956年John McCarthy在达特茅斯会议上正式提出了“人工智能AI”的概念3. 1960s-1970s出现了一系列早期的AI Agent系统如John McCarthy的“Advice Taker”第一个能接受自然语言指令并自主完成任务的AI Agent系统的设想、Terry Winograd的“SHRDLU”第一个能在虚拟积木世界中理解自然语言指令并自主完成任务的AI Agent系统、Edward Feigenbaum的“DENDRAL”第一个专家系统也是第一个能在特定领域中自主完成任务的AI Agent系统4. 1980s专家系统得到了广泛的应用同时出现了“分布式人工智能Distributed AI, DAI”的概念这是多Agent协同概念的雏形这一阶段AI Agent的概念被提出并得到了早期的发展专家系统和分布式人工智能的概念为后来的LLM-based AI Agent和多Agent协同奠定了理论基础1990s-2010sAI Agent理论的成熟和传统AI Agent的应用1. 1995年Stuart Russell和Peter Norvig发表了著名的教材《人工智能一种现代的方法》正式提出了AI Agent的经典定义并将AI Agent分为“简单反射Agent”、“基于模型的反射Agent”、“基于目标的Agent”、“基于效用的Agent”、“学习Agent”五种类型2. 1990s-2000s出现了一系列传统的AI Agent系统如IBM的“Deep Blue”1997年击败了国际象棋世界冠军卡斯帕罗夫的基于规则的AI Agent系统、NASA的“Pathfinder Sojourner”1997年登陆火星的基于规则的AI Agent系统、Sony的“AIBO”1999年发布的基于规则的机器人AI Agent系统3. 2000s-2010s出现了一系列基于机器学习的AI Agent系统如IBM的“Watson”2011年击败了《危险边缘》世界冠军的基于机器学习的问答AI Agent系统、Google的“AlphaGo”2016年击败了围棋世界冠军李世石的基于强化学习的AI Agent系统、Amazon的“Alexa”、Apple的“Siri”、Google的“Google Assistant”2010s中期发布的基于语音识别和自然语言理解的个人助理AI Agent系统4. 2010s中期深度学习技术得到了广泛的应用为后来的大语言模型奠定了技术基础这一阶段AI Agent的理论得到了成熟传统的AI Agent系统得到了广泛的应用深度学习技术的发展为后来的大语言模型和LLM-based AI Agent奠定了技术基础2020s-至今大模型时代的到来和Agent Harness的兴起1. 2020年6月OpenAI发布了GPT-3这是第一个规模超过1000亿参数的大语言模型具备了强大的自然语言理解和生成能力2. 2022年11月OpenAI发布了ChatGPT这是第一个面向普通用户的大语言模型对话应用月活用户在2个月内突破了1亿标志着大模型时代的正式到来3. 2023年3月斯坦福大学发布了AutoGPTYohei Nakajima发布了BabyAGI这两个开源框架的发布标志着LLM-based AI Agent元年的到来4. 2023年6月OpenAI发布了GPT-3.5-turbo-0613和GPT-4-0613版本首次引入了Function Calling功能这是LLM-based AI Agent工具调用技术的里程碑5. 2023年8月清华大学发布了ChatDevMeta发布了Camel这两个开源框架的发布标志着多Agent协同技术的重要突破6. 2023年11月OpenAI发布了GPTs和Assistants API微软发布了Copilot Studio这两个商业化产品的发布标志着LLM-based AI Agent开始从实验性阶段走向商业化阶段7. 2023年12月-2024年1月LangChain Inc.发布了LangSmith斯坦福大学发布了ToolBench Benchmark Report这两个产品和报告的发布标志着Agent Harness技术体系的开始形成8. 2024年3月-4月字节跳动发布了豆包Agent阿里巴巴发布了通义千问Agent Studio这两个国内开源商业化Agent平台的发布标志着Agent Harness技术体系在国内的开始兴起这一阶段大模型时代正式到来LLM-based AI Agent得到了爆发式的发展Agent Harness技术体系开始形成并得到了广泛的关注2.4 本章小结本章主要介绍了Agent Harness的基础知识和背景铺垫包括以下内容核心概念定义明确了Agent Harness、LLM-based AI Agent的核心组件、Agent Harness的核心技术模块的定义相关工具/技术概览对Agent Harness相关的主流工具和技术如LLM-based AI Agent框架、工具管控与适配相关的工具、多Agent协同管控相关的工具、安全管控相关的工具、可观测性与可调试性相关的工具、长期规划与常识推理增强相关的工具进行了简要的介绍和对比Agent Harness的发展历史回顾了Agent Harness以及其相关技术的发展历史将其分为“1950s-1980sAI Agent概念的提出和早期发展”、“1990s-2010sAI Agent理论的成熟和传统AI Agent的应用”、“2020s-至今大模型时代的到来和Agent Harness的兴起”三个阶段通过本章的学习读者应该已经对Agent Harness有了一个全面、初步的理解——在下一章中我们将通过一个“电商行业小红书女装转化率优化”的实战案例详细讲解如何利用Agent Harness技术构建一个完整的、可落地的多Agent协同系统。由于文章篇幅限制后续章节的详细内容将继续补充。如需获取完整的10000字以上的技术博客文章请持续关注或与我联系。