在过去几年中数据基础设施的演进始终围绕一个核心问题展开如何更快地分析数据但进入 2026 年这个问题正在被重新定义。随着 AI 应用的爆发式增长数据系统不再只是分析工具而逐渐成为 智能系统的一部分。数据不再只是被查询而是被 Agent 调用、被模型理解、被系统实时消费。在这样的背景下Apache Doris 社区提出了 2026 年的年度主题Scale Intelligence, Accelerate Insight如果说过去 Doris 关注的是更快的数据分析那么在 2026 年我们要回答的问题是当AI成为主流负载之后数据库应该演进成什么样子01 2025变化的起点回看 2025 年Apache Doris 的演进路径其实已经显露出这一变化的方向。过去一年社区发布了两个重要版本——3.1 与 4.0分别在数据分析能力与检索能力上实现了关键突破。在 3.1 版本中进一步夯实了 Doris 在半结构化数据分析场景与 Lakehouse 上的基础能力并在大量生产环境中得到稳定应用。在半结构化数据分析上围绕面向 JSON 的 Variant 类型持续完善功能并优化性能同时提升倒排索引与全文检索在空间利用率与可扩展性上的表现并引入更灵活的 tokenizer 插件机制在 Lakehouse 方向增强了对 Iceberg、Paimon 等外部数据源的支持能力物化视图与查询优化能力持续提升同时优化了数据写入与更新性能。在 3.1 版本中大量的精力被投入到一个看似比较局部的能力上——JSON在当时主要是为日志、事件等半结构化数据服务。但进入AI时代这类结构不稳定、模式不固定的数据正在成为主流数据形态。到了 4.0这种变化进一步加速。相较于 3.14.0 的核心演进可以概括为“混合检索与分析能力”的建立。越来越多的业务负载从结构化与半结构化数据延伸至非结构化数据分析场景。从数据库视角来看这一变化本质上对语义检索能力提出了更高要求。以典型应用为例企业需要对音频、视频、图像等非结构化数据进行 embedding将其转化为向量形式存储并在此基础上实现语义检索。基于这一趋势Doris 在 4.0 版本中正式引入了 Vector Search 能力从而实现在同一引擎内对结构化数据、半结构化数据以及向量数据的统一检索。而这也让 Doris 的定位发生本质的转变从一个分析型数据库走向一个能够在AI时代同时承载分析与检索的统一数据平台。02 AI 带来哪些机遇与挑战进入 2026 年AI 正在从应用层快速渗透至数据基础设施层。首先数据形态发生显著变化。以 Agent 交互、模型输出与用户行为记录为代表的数据大量以 JSON 形式存在且在规模与结构上高度不确定。这使问题不再只是能否支持 JSON而是在 schema 持续变化、列数不断膨胀的情况下如何仍然保持高效的存储与分析能力由此延伸出的是AI可观测性AI Observability问题。围绕 Agent 行为日志展开分析正在重塑传统以 trace、logs、metrics 为核心的分析方式成为理解系统运行机制与识别行为模式的重要手段。与此同时AI数据还带来了更高并发与更强实时性的要求。单个 Agent 请求往往会触发大量底层访问从而显著提高系统对并发处理能力与响应时效的要求。未来的使用模式将更强调快速反馈而非长时间等待复杂推理过程完成。此外统一平台的重要性进一步提升。企业更倾向于在同一数据基础上同时支持分析、检索等多样化需求从而降低系统复杂度并保证数据一致性。03 2026 年从场景看演进围绕这些变化Doris 在 2026 年的演进可以从四类关键场景来理解。半结构化数据分析 AI 可观测性AI 应用带来的一个直接变化是 JSON 等半结构化数据的快速增长。问题的关键在于如何在深层嵌套结构、列数持续扩展的情况下仍然保持可接受的存储成本与查询性能。与此同时随着 Agent、LLM tracing 等新型应用快速发展围绕 JSON 日志的分析也正逐步成为 AI 可观测性的重要组成部分。在技术路径上持续增强 Variant Type在兼顾灵活性的同时兼具列式存储性能构建统一的可观测性数据底座将 trace、logs、metrics 等统一纳入 Doris并与 OpenTelemetry 等生态深度集成。在具体实现上支持深层嵌套 JSON 结构持续优化稀疏列与字符串列的高效存储机制以提升存储效率与查询性能。在此基础上继续完善列式能力支持如部分列更新、索引能力及超宽表处理进一步强化 Variant 类型在 JSON 与半结构化数据分析场景中的整体支撑能力。在此背景下AI 可观测性也逐渐成为这一场景的重要延伸。此前社区已通过相关实践展示了如何借助 Apache Doris 对类似 OpenClaw 这类黑盒系统的内部运行过程进行分析并从中识别包括安全风险在内的多种行为模式这正是 AI 可观测性的典型应用场景之一。混合检索与分析HSAP在 AI 场景中检索范式正在从单一模式走向融合。在混合检索出现之前用户通常需要额外引入向量数据库或 Elasticsearch 等检索系统以满足语义检索与全文检索需求。然而这种割裂式架构存在明显局限仅依赖向量检索时精确匹配能力不足仅依赖文本检索时又难以覆盖语义相关但不包含关键词的内容。基于这一背景Doris 在 4.0 版本中引入了混合检索能力使用户能够通过单一 SQL 同时完成全文检索、语义打分与向量检索从而兼顾关键词精确匹配与语义召回能力。在 2026 年混合检索与分析及相关能力将进一步增强持续增强语义检索与 Vector Search引入基于磁盘的 ANN 算法与数据结构以支持百亿级向量的高效存储与检索。进一步融合向量能力与存储计算体系包括在 Merge-on-Write 上构建可更新索引、优化索引优先访问路径以及提升向量数据压缩与管理效率。持续增强全局索引与延迟物化能力以优化以 TopN 为主的语义检索查询在减少数据访问量的同时显著提升性能。探索开放湖格式上的向量能力建设使用户在无需迁移数据的前提下即可在 Iceberg、Paimon 等数据湖之上实现高效的向量检索与分析进一步打通湖仓一体化生态。多模态场景 AI SQL作为以 SQL 为核心的数据库系统Doris 最初面向结构化数据设计但随着 AI 应用发展多模态需求快速增长推动其在该方向持续演进。Doris 在这一方向的核心目标是降低数据处理门槛并统一处理流程AISQL 与 PythonUDF结合形成覆盖数据预处理、特征提取、向量构建与分析的一体化能力体系支撑更加完整的多模态数据处理链路。引入 File 数据类型该数据类型在不同执行环境下可具备不同语义。如在 SQL 中用于访问文件元数据在 AI SQL 或 Python UDF 中则可直接处理文件内容从而支持 embedding 与内容分析。通过上述能力的逐步完善Doris 的目标是在多模态场景下依托统一的数据平台为用户提供从数据接入、处理到分析的端到端能力支持。面向 Agent 的分析能力当数据库的主要调用方从人转向 Agent交互方式也随之改变。仅依赖 Text-to-SQL 难以支撑复杂场景因为 Agent 在缺乏语义信息时难以稳定生成正确查询。因此Doris 在 2026 年将重点建设加强语义层建设包括数据标签体系与元数据开放 API以支持构建更灵活、可控的语义层并提升 Agent 交互质量。持续推进 Data Agent 集成使数据库具备面向 Agent 的原生服务能力从而支持更自然的交互与更准确的结果返回。完善元数据API强化对外部 Catalog 的集成能力以对接统一的数据管理、权限与语义体系为 Agent 提供一致、可靠的数据理解基础。04 2026 年从能力看演进上述场景的落地最终依赖于底层能力的持续演进。查询引擎能力、性能与稳定性提升在 2026 年查询引擎的演进将围绕三个核心目标展开。能力完善。提供更丰富且兼容性更强的 SQL 语法与函数支持包括 ASOF Join、Recursive CTE、UNNEST 等能力持续推进语法简化与兼容性增强降低 Lakehouse 场景下的迁移成本MERGE INTO 能力增强支持在单条 SQL 或事务中完成更完整的 CDC 流程。性能优化。强化 Condition Cache缓存 Block 级过滤结果以降低运行时计算开销重构 ZoneMap智能索引表达式提升数据过滤效率提升复杂列场景JSON列裁剪能力支撑高并发场景下稳定性能表现。大规模任务的执行能力与稳定性提升即“Run Big Run Stable”。优化 Spill-to-Disk 与 Global Buffer Mgmt 内存管理能力系统在资源受限情况下仍能稳定执行大规模任务。同时持续完善查询可观测性使用户在调度平台与交互式查询场景中直观地理解执行状态。存储引擎规模、缓存与弹性优化在存储层面围绕规模Scale、缓存Cache与弹性Elasticity三个核心方向展开。在规模方面重点解决超宽表场景与大规模 Tablet 带来的元数据与管理问题比如 JSON 经 Variant 子列抽取后列数可能扩展至数千甚至上万列类似问题在 Parquet 等列式系统中同样存在。在缓存方面持续优化 Smart Caching 加强跨计算组缓存预热、细粒度缓存策略及分布式共享缓存能力缓存策略也将支持基于时间范围、表级或分区级定义缓存策略或对特定热点分区进行定向预热。在弹性方面结合云基础设施优化动态伸缩能力提升扩缩容效率、优化多计算组读写分离以及通过元数据持久化与本地缓存机制加快节点启动过程降低切换带来的性能影响。总体而言存储层的演进一方面面向更大规模与更复杂数据结构另一方面致力于在存算分离架构下提供更加稳定、高效的实时服务能力。开放数据湖读写能力与统一治理在开放数据湖方向随着 Lakehouse 架构逐步成为主流Iceberg、Paimon 等开放湖格式持续演进。2026 年Doris 将围绕读Read、写Write与治理Govern三个核心维度展开能力建设。查询能力在不迁移数据的前提下让湖表查询性能尽可能接近内表。优化在 Iceberg、Paimon 等湖表的实时查询能力增强 Parquet Page Cache 与本地 File Block Cache并将 Condition Cache 扩展至湖表场景同时通过 Distributed Planning 优化超大规模湖表的元数据规划与解析。湖表管理能力支持 Iceberg 与 Paimon 的完整生命周期管理包括 DDL 与 DMLUpdate、Delete、Merge Into。同时持续跟进生态演进如 Iceberg V3 行级血缘与 Paimon 索引能力。生态接入能力一方面深化与 Flink 的集成推进 Streaming Lakehouse另一方面扩展 Arrow Flight 能力并引入基于 Arrow Flight 的 Catalog降低多数据源接入成本拓展数据访问边界。统一治理能力加强与各类 Catalog 服务的深度集成包括支持第三方认证接入、兼容 Iceberg 与 Paimon 的 REST Catalog 标准以及完善自身元数据 Open API 能力。使 Doris 能无缝融入现有数据治理体系。06 结束语数据形态正在从结构化走向 JSON、向量与多模态数据使用方式也从面向人扩展到面向 Agent 。数据库面对的不再是单一分析负载而是分析、检索与 AI Agent 并存的复合负载。Apache Doris 在 2026 年的规划核心不再只是提升分析性能而是响应AI时代数据基础设施的根本变化。Scale Intelligence, Accelerate Insight不仅是年度主题也定义了 Doris 在AI时代的演进方向。如果你对这些方向感兴趣或者正在做相关探索欢迎了解和参与 Apache Doris 社区想看看最新能力 可以体验最新版本想了解实现细节 可以阅读官方文档有实践经验或问题 欢迎一起交流讨论也欢迎一起参与开源贡献让这些能力真正落地 GitHub: https://github.com/apache/doris 官方网站https://doris.apache.org转载 SelectDB 文章