当一家公司声称自己拥有“数据智能体”时如何分辨它到底是套壳的 ChatGPT 流水线还是真正能自主编排复杂数据管线的新一代系统一篇 24 位作者耗时数月完成的综述论文直接借用汽车自动驾驶的分级标准为数据 Agent 领域画下了第一张通往 L5 的路线图。论文标题A Survey of Data Agents: Emerging Paradigm or Overstated Hype?作者Yizhang Zhu, Liangwei Wang, Chenyu Yang, Xiaotian Lin, Boyan Li, Wei Zhou, Xinyu Liu, Zhangyang Peng, Tianqi Luo, Yu Li, Chengliang Chai, Chong Chen, Shimin Di, Ju Fan, Ji Sun, Nan Tang, Fugee Tsung, Jiannan Wang, Chenglin Wu, Yanwei Xu, Shaolei Zhang, Yong Zhang, Xuanhe Zhou, Guoliang Li, Yuyu Luo 等 25 位作者作者单位香港科技大学广州、上海交通大学、中国人民大学、北京理工大学、东南大学、清华大学、华为、DeepWisdom通讯作者李国良清华大学罗宇煜香港科技大学广州发布时间2025 年 10 月 27 日初版2026 年 2 月 24 日修订版论文链接arXiv:2510.23587Awesome Listgithub.com/HKUSTDial/awesome-data-agents1. 背景与动机数据 Agent 领域的“巴别塔困局”1.1 一个被滥用的术语LLM 的快速发展催生了大量被称为“数据代理”的系统[reference:0]。然而“数据代理”一词的用法极度混乱[reference:1]一个 NL2SQL 工具被称作数据代理一个带 RAG 的问答机器人被称作数据代理一个能自主编排端到端数据分析管线的多智能体也被称作数据代理这种术语模糊性导致了三个严重问题[reference:2]用户期望不匹配——用户看到“数据代理”就以为它能自动做分析实际上买的只是一个对话助手责任边界不清——系统出错时责任在人类还是 Agent行业发展障碍——无法客观比较不同系统也难以建立统一的监管框架1.2 核心洞见借一把“已存在”的尺子面对这一困局作者没有重复造轮子而是直接借用了一个在另一个行业中被反复验证、广为人知的分级体系——SAE J3016汽车自动驾驶分级标准[reference:3]。SAE J3016 之所以成功在于它用0–5 六个级别清晰划分了人类与机器在驾驶任务中的控制权转移过程为制造商、监管者、用户提供了统一语言[reference:4]。论文的核心洞察极其简洁如果自动驾驶能用 L0–L5 来区分“人开车”和“车开车”为什么数据 Agent 不能2. 方法论L0–L5 分层分类体系2.1 六级别定义论文提出了数据 Agent 领域的第一个系统化分层分类体系涵盖从 L0 到 L5 共六个级别对应数据相关任务中控制权和责任从人类向 AI 的渐进式转移[reference:5]。级别名称人类角色数据 Agent 角色典型示例L0无自主性唯一执行者完全不参与手动编写 SQL、写脚本、构建图表L1辅助主导任务负全责无状态问答助手提供代码片段或建议NL2SQL、TableQA、GPT 辅助的数据查询L2部分自主设计管道监督执行感知环境拥有记忆调用工具执行特定子任务带 RAG 的数据问答、自动数据清洗L3条件自主监督者关键节点审批自主编排端到端数据管道处理多样化任务多 Agent 协作的数据分析系统L4高度自主旁观者仅需设定目标应对未知场景在复杂环境中自主决策尚处于研究愿景阶段L5完全自主不介入知识创造和范式创新功能相当于“专家数据科学家”尚处于长期研究愿景阶段2.2 形式化表示论文对每个级别给出了严格的形式化定义涉及任务、数据、环境和模型四要素[reference:6]。L0纯人类操作数据代理完全不参与所有任务由人类完成。形式化表示为H : π H ( T , D , E ) → P ; ϵ H ( P , D , E ) → O , A : ∅ H : \pi_H(T , D, E) \rightarrow P ; \epsilon_H(P, D, E) \rightarrow O, A : \emptysetH:πH​(T,D,E)→P;ϵH​(P,D,E)→O,A:∅[reference:7]L1辅助性智能数据代理以无状态的提示-响应方式提供初步帮助人类仍主导任务并承担所有责任。形式化表示为H : π H ( T , D , E ) → P ; ϵ H ( P , D , E , r ) → O , A : ( q , M ) → r H : \pi_H(T , D, E) \rightarrow P ; \epsilon_H(P, D, E, r) \rightarrow O, A : (q, M) \rightarrow rH:πH​(T,D,E)→P;ϵH​(P,D,E,r)→O,A:(q,M)→r[reference:8]L2部分自主性数据代理拥有记忆和工具调用能力能够感知环境反馈并自适应优化行动在人类设计的管道内执行特定子任务。形式化表示为H : π H ( T , D , E ) → P , A : ϵ A ( P , D , E , M ) → O H : \pi_H(T , D, E) \rightarrow P, A : \epsilon_A(P, D, E, M) \rightarrow OH:πH​(T,D,E)→P,A:ϵA​(P,D,E,M)→O[reference:9]2.3 进化飞跃从 L2 到 L3 是关键瓶颈论文指出最关键的瓶颈是从 L2 到 L3 的跃迁[reference:10]。这个跃迁的本质是数据代理从“程序执行者”演变为“自主编排者”——在 L2 阶段Agent 在人类设计的管道内执行预定子任务进入 L3 后Agent 开始理解高层次用户意图自主编排跨不同任务的端到端数据管道[reference:11]。这一飞跃的意义不亚于汽车从 L2/L3 跃迁到 L4/L5——从“局部辅助”到“条件主导”是人类从驾驶座上撤下来的关键分水岭。论文指出实现这一跃迁需要在两个维度取得突破战略推理——Agent 需要理解长期目标自主分解复杂任务并在执行过程中动态调整计划动态工具进化——Agent 不能仅依赖预设工具而需要能按需创建、组合和学习新工具3. 全景扫描现有研究如何分布在 L0–L5 之间基于这一分级框架论文对现有研究进行了系统性梳理给出了按自主性递增排序的结构化综述[reference:12]。3.1 L0/L1从手工劳动到辅助智能这一阶段的研究主要集中在数据管理的 NL2SQL将自然语言自动转换为 SQL 查询数据准备的表问答针对表格数据的智能问答数据分析的 NL2VIS从自然语言描述自动生成数据可视化图表典型代表系统包括早期 TableQA 系统和各厂商提供的 NL2SQL 功能。这些系统处于 L0/L1 级别的原因在于它们本质上是无状态的且不涉及长序列自主决策——每一次查询都独立于之前的对话系统不会记住刚才发生过什么。3.2 L2部分自主性L2 级系统开始具备对数据湖、代码解释器、API 等环境的感知与交互能力记忆机制和工具调用能力基于环境反馈的自适应优化能力论文中归纳了 L2 数据代理的三大研究方向数据管理自动数据清洗、模式匹配、实体对齐数据准备自动特征工程、数据转换数据分析自动统计分析、可视化生成3.3 L3条件自主性目前处于 L3 级别的研究最为前沿也是这篇综述的核心关注点。L3 级系统不再局限于预设管道而是能够理解高层次的用户意图自主编排跨多种任务的端到端数据管道在人类监督下自适应决策持续优化执行路径。论文重点分析了 L3 级系统在面对多样化、全面的数据相关任务时的通用性和适应能力特别关注它们如何在最小化人工干预的前提下执行复杂的数据流程[reference:13]。3.4 L4/L5尚在研究愿景阶段对于 L4 高度自主和 L5 完全自主论文将其定位为长期研究愿景。L5 级 Agent 被设想为能够超越现有方法发明全新的数据管理、准备和分析方法与范式功能上相当于一个“专家数据科学家”[reference:14]。4. 核心贡献不仅仅是“又一个综述”维度贡献首个系统化分层分类体系基于自主性的 L0–L5 分级框架为比较不同数据代理建立了统一标尺结构化综述按自主性递增排序组织现有研究覆盖数据管理、准备和分析三大任务领域关键瓶颈分析特别关注 L2→L3 这一“从程序执行到自主编排”的关键跃迁前瞻性路线图设想主动式、生成式数据代理的未来明确 L4/L5 的愿景与挑战开源资源配套 Awesome List 持续更新论文清单和分类信息5. 未来方向从 L3 迈向 L4/L55.1 需要突破的技术瓶颈从 L3 到 L4 的飞跃需要 Agent 获得真正的“领域自适应”能力面对训练中未见过的陌生数据场景依然能够自主理解结构、制定策略并执行全流程。这考验 Agent 的泛化能力极限。从 L4 到 L5 的终极飞跃则要求 Agent 具备生成能力——不仅应用现有方法还能发明新方法以推动数据管理、准备和分析领域的前沿[reference:15]。这几乎等价于构建一个“AI 数据科学家”。5.2 开放挑战论文识别出的关键挑战包括[reference:16]对齐稳定性如何确保 Agent 的长期行为与人类意图一致可解释性如何让 Agent 的决策过程透明、可审计治理机制如何在保障安全的前提下允许 Agent 自主行动鲁棒评估框架如何建立衡量 Agent 自主性能的标准基准5.3 实验与基准虽然这篇论文是综述而非实验论文但它为未来的研究指明了方向。论文指出当前 L3 级系统需要依赖人类监督进行“条件自主”真正实现 L4/L5 还需在推理能力和适应性上取得重大突破已有基准如DABStep正在推动这一领域的标准化评估[reference:17]在通用 AI Agent 领域WebArena 等综合性评测基准的建立思路值得数据 Agent 领域借鉴5.4 现实启示论文对工业界和学术界的核心启示是用一个层次分明的认知框架审视所有自称“数据代理”的系统。当你听到“数据代理”时请追问它在哪个级别人类什么时候介入谁对结果负责这种分级思维的价值在于对开发者明确能力边界指导系统设计对用户管理期望理解 Agent 能做到什么、不能做到什么对监管者建立问责框架厘清事故责任归属对投资者穿透技术包装看清真实能力和产品成熟度6. 总结这篇 25 位作者、35 页正文的综述最核心的贡献其实只有一个它给了数据 Agent 行业一把可以统一度量的尺子让“助理”、“助手”、“智能体”、“代理”等被滥用的名词在一个 L0–L5 的坐标体系中找到了自己的精确位置。通过与 SAE J3016 的类比它把一个模糊的学术问题转化为一个清晰的工程问题为数据代理领域指明了从“炒作”到“落地”的关键路径从 L2 到 L3 的跨越是未来最关键的瓶颈。在 AI 炒作此起彼伏的时代最重要的能力不是锦上添花的形容词而是追问“L几”的习惯。而对于任何从事数据基础设施、数据分析、AI Agent 技术的研究者来说这篇综述值得放在案头反复翻阅作为区分“真实能力”与“过度炒作”的参考指南。