【第五周】论文精读：IRCoT：当检索增强遇上思维链，多步推理难题迎刃而解

张

张建站

2026/5/17 11:51:07

10分钟阅读

主流RAG采用先检索后生成的串行范式但在知识密集型多步问答中频频失效本文提出IRCoT将检索与思维链CoT推理交错进行实现推理指导检索、检索反哺推理的动态闭环在4个主流多跳数据集上检索召回率提升11-21点QA准确率提升7-15点且小模型3BIRCoT可超越大模型175B传统检索。论文基本信息项目内容论文标题Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions核心贡献IRCoT框架交错式检索思维链推理、动态查询生成、事实性增强作者/机构Harsh Trivedi等Stony Brook University, Allen Institute for AI发表年份2023ACL核心领域开放域问答、多跳推理、检索增强生成、思维链提示关键数据/规模4数据集HotpotQA/2Wiki/MuSiQue/IIRC、GPT-3(175B)/Flan-T5(0.2B-11B)代码/资源开源✅ 已开源github.com/stonybrooknlp/ircot 研究背景与痛点1. 传统一步检索为何在多步推理中失效现象用问题直接检索维基百科常因信息缺失导致模型幻觉典型案例问题“Lost Gravity过山车是在哪个国家制造的”❌ 一步检索文档只介绍过山车未提制造商 → 模型瞎编✅ 人类解法①查制造商→②查制造商国籍→③得答案本质矛盾多步推理中“下一步检索什么依赖上一步推理结果”静态检索无法捕捉动态依赖2. 现有方案的局限性方案核心思路局限One-step RAG问题→检索→生成无法处理推理依赖召回率低SelfAsk分解子问题Google搜索依赖外部API未聚焦检索优化ReAct推理行动序列需大模型(540B)微调成本高DecomP任务分解子模型协作需单跳QA模型检索策略简单3. 本文核心洞察检索与推理应伴生而非串行没有检索 → CoT易幻觉没有CoT → 检索找不到关键证据用已生成的推理句作为新查询比原问题更精准定位下一跳知识️ 核心方法IRCoT 全景详解本文方法极度简洁基础检索器 CoT生成器交错迭代循环无复杂训练纯Prompt驱动。1. IRCoT 执行流程 —— 推理-检索动态闭环┌─────────────────────────────────┐ │ 输入问题 Q │ └────────┬────────────────────────┘ ▼ ┌─────────────────────────────────┐ │ ① 基础检索用Q检索K个段落 │ │ → 初始化文档池 D₀ │ └────────┬────────────────────────┘ ▼ ┌─────────────────────────────────┐ │ ② 交错迭代循环最多8步 │ │ ┌─────────────────────────┐ │ │ │ A. Reason步 │ │ │ │ 输入Q Dₜ CoT₁..ₜ │ │ │ │ 输出CoTₜ₊₁下一句推理│ │ │ └────────┬────────────────┘ │ │ ▼ │ │ ┌─────────────────────────┐ │ │ │ B. Retrieve步 │ │ │ │ 输入CoTₜ₊₁ as query │ │ │ │ 输出新K段落 → Dₜ₊₁ │ │ │ └────────┬────────────────┘ │ │ ▼ │ │ [终止判断]含答案是或达最大步数 │ └────────┬────────────────────────┘ ▼ ┌─────────────────────────────────┐ │ ③ 最终阅读Q 所有累积文档 → 答案│ └─────────────────────────────────┘2. 关键组件实现细节① Prompt模板设计Few-shot CoTWikipedia Title:Page Title Paragraph Text ...累积的检索段落... Q:Question A:已生成的CoT句子 → 模型续写下一句推理核心技巧演示数据中加入1-3篇干扰文档教会模型在噪音中筛选证据② 检索器选型与查询构造基础检索器BM25Elasticsearch实现查询来源上一句CoT如Lost Gravity的制造商是Mack Rides优势CoT句子含中间实体比原问题语义更聚焦③ 终止与阅读策略终止条件①生成answer is… ②达8步上限 ③文档池满15篇阅读策略独立Reader模型基于全部文档生成答案优于直接从CoT提取3. 类比解释像侦探破案传统RAG 拿着问题清单一次性搜所有线索 → 常漏关键证据️IRCoT 侦探边推理边查档推理“凶手用左轮手枪” → 检索左轮手枪购买记录推理“买家住在城东” → 检索城东居民档案…直到锁定嫌疑人实验结果与深度分析1. 核心性能提升GPT-3 code-davinci-002数据集检索召回率↑QA F1↑CoT事实错误↓HotpotQA11.37.1-50%2WikiMultihopQA22.613.2-40%MuSiQue12.57.1-45%IIRC21.2≈0*-38%*注IIRC中GPT-3参数知识已较充分检索增益有限2. 关键发现与洞察发现一小模型好策略大模型笨策略Flan-T5-3B IRCoT 的QA效果超越GPT-3(175B) OneR证明检索策略优化可弥补模型规模差距发现二交错检索显著提升证据召回传统方法常漏掉与原问题词汇重叠低但推理关键的文档IRCoT通过CoT引导精准命中发现三事实性幻觉大幅减少每步推理都有检索文档支撑模型不敢随意编造人工评估错误率降低40-50%发现四泛化能力强OOD设置用HotpotQA的Prompt示例测试2WikiIRCoT仍保持显著优势说明方法具有跨数据集通用性3. 模型规模缩放效应检索召回率对比以HotpotQA为例模型规模 OneR IRCoT 增益 ───────────────────────────── 0.2B 35.2 41.8 6.6 0.7B 35.2 44.1 8.9 3B 35.2 47.3 12.1 11B 35.2 49.8 14.6 175B(GPT3) 35.2 52.1 16.9 即使最小模型(0.2B)IRCoT也优于OneR且增益随模型能力增长而扩大主要创新点总结范式创新首次将检索与CoT推理深度交错打破先检索后生成的串行思维动态查询生成用推理中间结果作为检索query解决多跳推理的信息依赖问题事实性增强每步推理绑定检索证据从源头抑制幻觉提升答案可信度小模型友好无需训练纯Prompt驱动让中小模型具备处理复杂推理的能力可复现性强开源代码详细PromptBM25公开LLM即可复现核心结果⚠️ 局限性与挑战推理延迟高每步需调用LLM检索器5步推理≈5倍延迟不适合实时场景上下文窗口瓶颈累积文档受LLM上下文限制论文设15篇长推理可能截断关键信息错误传播风险若早期CoT生成错误后续检索可能越跑越偏缺乏纠错机制依赖CoT能力基础模型需具备few-shot CoT生成能力未微调的小模型可能失效IIRC等特殊数据集需额外处理基于主文章检索的设定通用性略有折扣对开发者的实战建议如果你想在项目中落地IRCoT思想场景筛选优先用分类器判断问题是否需多步推理简单问题走传统RAG复杂问题启用IRCoT缓存优化检索建立Query→Documents缓存避免重复检索相同CoT句子异步执行设计在模型生成CoT时预触发检索减少端到端延迟模型蒸馏降本用GPT-3生成的IRCoT轨迹训练小模型消除推理时的多次API调用Prompt维护机制建立高质量CoT示例库随业务变化定期更新few-shot演示混合策略备选不必完全照搬多步循环可简化为生成关键实体→立即二次检索以较小代价换取显著增益一句话总结知识密集型多步推理的核心瓶颈从来不是模型不够大而是检索与思考脱节IRCoT用边想边查的动态闭环证明好的检索策略能让普通模型在硬核推理上实现质的飞跃。延伸思考随着LLM上下文窗口扩大128K和推理速度提升IRCoT的延迟瓶颈将逐步缓解。未来检索-推理交错范式极有可能成为复杂Agent系统的标准认知架构。

MybatisPlus乐观锁

代码片段 TestOneMapper.xml<?xml version"1.0" encoding"UTF-8"?> <!DOCTYPE mapper PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN" "http://mybatis.org/dtd/mybatis-3-mapper.dtd"> <mapper namespace"com.h…...

2026/3/31 22:29:44 阅读更多 →

PyTorch 2.8镜像环境配置：CUDA 12.4与cuDNN 8+版本兼容性验证指南

PyTorch 2.8镜像环境配置：CUDA 12.4与cuDNN 8版本兼容性验证指南 1. 镜像环境概述 PyTorch 2.8深度学习镜像是一个经过深度优化的通用计算环境，专为现代AI工作负载设计。这个镜像最显著的特点是完美适配了NVIDIA最新的CUDA 12.4和cuDNN 8版本&#xff…...

2026/3/31 22:28:05 阅读更多 →

数组递归函数，从下往上返回所有节点数据

数组递归函数，从下往上返回所有节点数据 ### 功能说明这段代码实现了一个树形结构查找功能，用于获取从根节点到目标节点的路径值数组。主要针对具有父子层级关系的数据结构（如组织架构、目录树等），能够快速定位目标节点…...

2026/3/31 22:27:50 阅读更多 →

app扫描wifi的时候需要打开GPS定位----否则扫不到

这是很奇怪的一个事情，wifi和定位有什么关系？但是就是要打开。...

2026/5/17 0:00:27 阅读更多 →

AMD Ryzen调试神器SMUDebugTool：免费开源工具让你的处理器性能飞起来！

AMD Ryzen调试神器SMUDebugTool：免费开源工具让你的处理器性能飞起来！ 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tab…...

2026/5/17 0:07:16 阅读更多 →

Midjourney抽象表现主义风格迁移全链路（从梵高笔触到AI熵增美学的底层逻辑解密）

更多请点击： https://intelliparadigm.com 第一章：Midjourney抽象表现主义风格迁移全链路（从梵高笔触到AI熵增美学的底层逻辑解密） 抽象表现主义并非仅关乎色彩与笔触的失控，而是神经感知系统在高维特征空间中对抗坍缩…...

2026/5/17 0:11:51 阅读更多 →

2026届毕业生推荐的AI科研方案实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 处在学术研究的起始阶段，开题报告的撰写常常令好多研究生以及青年学者觉得麻烦&…...

2026/5/17 0:12:15 阅读更多 →