论文ARIS: Autonomous Research via Adversarial Multi-Agent CollaborationarXiv:2605.030422026.5.4 上海交大适合人群独立开发者 / Solopreneur / 想搭睡眠工作流的人一、先讲一个我自己的故事我做独立开发者两年多最焦虑的一件事不是没活干是有活干但做不完。一个人 一台电脑 24 小时——这个组合的天花板我以为已经被我撞死了。直到 5 月 4 号上海交大放出 ARIS 这篇论文我才意识到一件事天花板不在我身上在我没有学会让 AI 在我睡觉时帮我干活。不是自动化,不是workflow,不是AI 助手——是有审查机制的、能自我修正的、能持续累积经验的 7×24 工作流。这篇文章不讲 ARIS 是什么那是另一篇技术拆解的事。这篇只讲一件事——作为一个独立开发者怎么把 ARIS 论文里的方法搬到自己的工作流里让 AI 在你睡觉时真的把活干完。二、为什么之前你的AI 工作流都失败了先复盘一个真相。很多人在 2024-2025 年都尝试过搭AI 工作流。AutoGPT、BabyAGI、AutoGen——名字一茬接一茬。但 90% 的人最后都放弃了回到我盯着 Cursor 自己写代码的状态。为什么我做了 6 次失败实验后总结出 3 个根因——根因 1跑着跑着就开始编让 AI 跑长任务1 小时中间没有人盯着它会写一些看起来对、但实际编造的东西。最常见的引用一篇不存在的论文计算一个数据时用了错的公式但结论看起来合理写一段代码看起来能跑实际 import 的库根本没装ARIS 论文里给这件事起了一个名字「看似合理但缺乏支撑的成功」plausible but unsupported success。这是长 Agent 的头号杀手。根因 2每次都从零开始跑了 100 次 AI 工作流每一次都是白纸一张。同一个错误被犯 100 次。同一个想法被尝试 100 次。没有经验沉淀的工作流是永远不会变好的工作流。根因 3没有裁判让一个 LLM 自己生成自己审查等于让运动员自己当裁判——永远过关。但很多人不知道这件事的关键不是找个裁判而是找不同家族的裁判。同一个模型的盲区是一致的互相审查就是互相放水。三、ARIS 论文给我的核心启发从「Executor First」到「Reviewer First」ARIS 这篇论文的核心机制简单到一句话能说清让 Claude 写、让 GPT 审、互相挑刺、直到达标。但魔鬼在细节里。论文实测的隔夜数据总耗时8 小时审查-修改循环4 轮评分从 5.0/10 → 7.5/10触发 20 次 GPU 实验AI 主动删除了证据不足的结论最后一条最让我震撼——AI 主动删除自己写过的话。这是过去所有 AI 工作流都不会发生的事。它不再是硬塞内容的生成器而是对自己负责的工作伙伴。这件事改变了我对 AI 工作流的认知之前的认知现在的认知AI 工作流 让 AI 自己干AI 工作流 让 AI 跟 AI 互相约束重点是 Executor 多强重点是 Reviewer 多严Reviewer 是个评分插件Reviewer 是个独立干活的 Senior一个模型就够了必须跨家族Claude × GPT / DeepSeek 等工作流靠 prompt 工程工作流靠 Markdown 技能库如果你只能从这篇文章里带走一句话——长周期 Agent 的瓶颈不是生成能力是审查机制。四、Solopreneur 该怎么搭一套 ARIS 风格的工作流5 个落地步骤下面 5 步是我从 ARIS 论文开源代码9.9k Stars里抠出来的可落地操作。每一步都给到具体可执行的命令和工具。步骤 1确定你的睡眠任务是什么ARIS 是为科研设计的但它的方法论适用于任何长周期 需要可信输出 重复发生的任务。作为 Solopreneur能跑睡眠工作流的典型任务任务类型之前你怎么干改成睡眠工作流后行业研究报告自己搜资料、整理、写 3 天睡前下命令早上拿成稿审竞品分析一家一家手抠数据多个 Agent 并行抓 交叉验证代码重构全部自己做Executor 改 Reviewer 审自动跑测试周报/月报复盘写作 1 小时数据汇总 草稿生成 自审内容创作公众号/CSDN全程手写大纲生成 → 草稿 → 自审 → 你最后润色数据分析手写 SQL 跑 Notebook计划生成 → 执行 → 结论审计但有一个反向清单——下面这些任务不适合睡眠工作流需要实时反馈的聊天客服、临场决策涉及不可逆操作的生产环境部署、资金交易需要法律或医疗专业判断的跟人有强情感连接的私人沟通判断标准如果做错了能容忍代价 任务足够长 重复发生就适合上睡眠工作流。步骤 2搭一个跨家族对抗的最小配置ARIS 论文的核心是跨模型审查。但作为独立开发者你不需要直接装 ARIS-Code CLI。你可以用最简单的方法最小配置零成本起步执行者ExecutorClaude Code或 Cursor 接 Claude 审查者Reviewer用 ModelScope 免费层接 DeepSeek 或 Qwen为什么是这个组合Claude 在长文生成、代码、推理上稳DeepSeek 在审查、找逻辑漏洞上特别敏锐两家训练数据和对齐方法完全不同——盲区不重叠ModelScope 免费层基本能覆盖个人开发者的用量配置过程10 分钟搞定装 ARIS项目本地符号链接安装gitclone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.gitcdAuto-claude-code-research-in-sleepbashtools/install_aris.sh配置 Codex MCP 作为 Reviewernpminstall-gopenai/codex codex setup# 提示时选 gpt-5.5claude mcpaddcodex-suser -- codex mcp-server不想用 GPT换成国产模型# 通过 mcp-servers/llm-chat 桥接支持# DeepSeek V4 Pro / GLM-5 / Kimi K2.5 / Qwen 3.6 / MiniMax M2.7进阶配置已经赚钱了再升ExecutorClaude Opus 4.7用 Pro 订阅 ReviewerGPT-5.4 Pro通过 oracle-pro 路由 后端模型MiniMax M2.7备份ARIS 论文里说默认双模型最优——不是 3 个、4 个就是 2 个。多了反而陷入扯皮。步骤 3把你的工作流写成 Markdown Skill这是 ARIS 最颠覆我的设计——所有技能都用 Markdown 写不是 Python 不是 YAML。为什么因为 Markdown 是所有 LLM 的母语。你写一个 Skill今天用 Claude明天换 DeepSeek后天上 Qwen——一个字都不用改。举个例子我自己写过一个《写公众号文章》的 Skill--- name: wechat-article-writer description: 写一篇课堂型公众号文章 inputs: [topic, target_audience, key_points] outputs: [DRAFT.md, COVER_PROMPT.md] --- ## 步骤 1审题 - 这个话题的之前 vs 之后是什么 - 目标读者最痛的痛点是什么 ## 步骤 2搭骨架 - 痛点 → 框架 → 实操 → 反思 4 段式 - 每段必须有具体数据或案例 ## 步骤 3写草稿 - 标题 35-40 字包含一个反直觉点 - 开头 300 字必须给读者一个我必须读下去的钩子 - 每个章节配一个effects 图或代码块 ## 步骤 4自审 - 有没有 AI 腔首先其次综上所述 红灯 - 有没有具体数据占比 / 数字 / 案例 - 有没有反直觉点 ## 步骤 5产出 - DRAFT.md - COVER_PROMPT.md给 Nano Banana / Kolors 用写完之后扔到~/.claude/skills/下任何时候喊/wechat-article-writerARIS 论文解读— target_audience: 独立开发者它就开始按这个流程走。核心原则把所有重复发生的工作都写成 Markdown Skill。步骤 4配置三道反幻觉保障这是 ARIS 论文里最值得抄作业的部分——Assurance Layer。作为独立开发者你不需要 ARIS 那么复杂的 5 层审查。但有 3 道保障是必须配的保障 1跨模型评分每次 Executor 出稿后让 Reviewer 用结构化评分卡打分评分维度各 0-10 - 事实准确性 - 数据有引用 - 逻辑连贯 - 没有AI腔 - 没有空话套话 - 有具体案例 总分 7.5返回行动项重写 总分 7.5通过保障 2引用核验凡是 AI 引用的论文、数据、名人原话必须能核验。最简单的方式# 在 Skill 里加这一段对每条引用验证三件事1. 这个来源真的存在吗给 URL 让你验证2. 这个来源真的说过这话吗给原文片段3. 引用语境跟原文一致吗不能曲解ARIS 把这件事叫做citation-audit。AI 幻觉里最危险的就是引用了真实存在但说法被篡改的内容。保障 3用一个无上下文审查者做最终验证这是 ARIS 最巧妙的设计——最后一道审查用一个完全没看过前面对话的新模型来做。为什么因为前面的 Reviewer 跟 Executor 来来回回讨论了几轮后可能已经被污染——默认接受了某些主张。新审查者相当于重置记忆逼自己从原始数据重新验证一遍论文里的每一条数字。具体怎么做在你的工作流最后一步# 开一个全新会话不带历史# 把最终产出和原始数据一起给它# 让它逐条核验定量主张步骤 5搭一个 Research Wiki让经验累积这是我自己上 ARIS 后变化最大的一件事——强制让 AI 写日志、强制让 AI 读日志。ARIS 论文里说失败 → 进禁试清单成功 → 成为下一轮起点具体在自己的工作流里怎么落地最简单的实现一个 Markdown 文件~/.solopreneur-wiki/ ├── failed-attempts.md # 失败的尝试 失败原因 ├── successful-patterns.md # 成功的模式 适用条件 ├── prompts-library.md # 验证过有效的 prompt └── client-context.md # 客户/项目长期上下文每次 AI 跑完任务强制让它写两件事这次成功在哪失败在哪下一次跑类似任务应该跳过什么、复用什么然后下次跑任务前强制让它先读 Wiki。ARIS 把这个流程自动化了/research-wiki init# 初始化/meta-optimize# 让系统读日志、提改进建议如果你不用 ARIS自己手动维护也可以——关键不是工具是这个习惯。五、一个真实的对照用了 ARIS 思路后我的工作日我把7×24 工作流上线后我自己的工作日变了之前的工作日10 小时全自己干08:00 起床喝咖啡 09:00 看竞品资讯 1 小时 10:00 写文章 / 写代码 3 小时 13:00 午饭 短暂休息 14:00 客户对接 2 小时 16:00 数据分析 写报告 3 小时 19:00 收工但任务永远做不完产出1 篇文章 半个项目模块之后的工作日4 小时人 8 小时 Agent睡前 23:00 下指令给 Agent - 抓取行业 10 个最新动态 整理 - 起草明天的文章 v1 - 跑一个数据分析任务 - Reviewer 自审 Wiki 更新 早上 08:00 起床看 Agent 的产出 - 行业整理已就绪10 分钟看完 - 文章草稿已写好15 分钟我手动改 - 数据分析已跑完5 分钟看结论 - 失败的尝试已记录到 Wiki 09:00 - 13:00 人工干预 4 小时——做 Agent 做不了的事 - 客户对接情感判断 - 战略思考长期规划 - 创意构思最难的部分 13:00 - 18:00 自由时间——休息 / 学习 / 见人 晚上 22:00 10 分钟下发明天睡眠任务 睡觉产出2 篇文章 1 个项目模块 1 个数据分析报告差异产出翻倍 工作时间减半。但更重要的是——焦虑感几乎消失了。因为我知道睡觉的时候有另一个我在干活。六、给独立开发者的 5 条心法最后超出 ARIS 论文之外我自己实践半年总结的几条心法心法 1永远先搭 Reviewer再搭 Executor90% 的人搭 AI 工作流时第一步是想让 AI 怎么做。错。第一步应该是让 AI 怎么不做错。Reviewer 比 Executor 重要 10 倍。先把审查机制搭对再考虑生成质量。心法 2Markdown 是 Skill 的最佳载体不要用 Python 包装。不要用 YAML 描述。不要用 JSON 配置。用 Markdown 写 Skill——人类能读、LLM 能懂、跨模型通用、热替换、可版本管理。ARIS 9.9k Stars 不是白来的这是社区用脚投出来的票。心法 3每次 Agent 运行都必须留下日志学习跑 10 次 Agent 没记录等于跑 1 次。跑 1 次 Agent 留下结构化日志成功/失败/根因/改进点等于跑了 10 次的复利。强制每一次 Agent 运行结束都写 Wiki——这是非线性提升的唯一来源。心法 4人保留在创意 情感 不可逆的环节Agent 能做的写、改、查、跑、整理、汇总。Agent 做不了的原创判断、情感连接、不可逆决策。把你自己的精力100% 投资到 Agent 做不了的地方。其他全部 offload。心法 5Solopreneur 的真正护城河不是技能是杠杆之前一个人能做 1 倍的事。现在一个人 1 个 Agent 工作流能做 3-5 倍的事。明年一个人 5 个工作流 3 个跨模型审查机制能做 10-20 倍的事。护城河不是你会什么是你能调动多少倍的复制版自己。ARIS 这篇论文本质上是给所有 Solopreneur 上了第一课——你的天花板不在自己身上在你愿不愿意学会让 Agent 在你睡觉时帮你干活。七、立刻可上手清单不想看长篇大论直接抄这份 checklist□ 装 ARISgit clone bash tools/install_aris.sh □ 配跨家族 ReviewerClaude DeepSeek 或 Claude GPT □ 选你的第一个睡眠任务写作 / 调研 / 数据分析 □ 把这个任务写成一个 Markdown Skill □ 跑 3 次每次让 Reviewer 评分 □ 建立 Research Wiki成功/失败/根因都记录 □ 第 4 次跑之前让 AI 读 Wiki □ 比较第 4 次和第 1 次的产出质量 □ 把跑通的 Skill 沉淀进个人技能库 □ 把这套流程推到第二个任务10 天就能跑通一个。30 天能跑通 3-5 个并行任务。3 个月后你的产出能力会让你自己都吃惊。八、写在最后我做独立开发者第二年最痛苦的不是赚不到钱是明明看到机会但精力不够。ARIS 这篇论文让我意识到一件事——Solopreneur 真正稀缺的不是时间是审查能力。你能不能让 Agent 帮你干活取决于你敢不敢把审查权交给 AI。能不能让 Agent 干得对取决于你愿不愿意搭跨模型对抗。能不能让 Agent 越干越好取决于你愿不愿意建 Wiki 让经验累积。这三件事的本质都不是技术是思维方式。技术早就有了——Claude、GPT、DeepSeek、ARIS 开源、ModelScope 免费。思维方式才是分水岭。愿你早日学会让 AI 在你睡觉时干活。那时候你就会明白——一个人 一台电脑 24 小时不是上限。资源汇总ARIS 论文https://arxiv.org/abs/2605.03042ARIS 代码9.9k Starshttps://github.com/wanshuiyin/Auto-claude-code-research-in-sleep36氪深度报道https://m.36kr.com/p/3799050979040518国内免费方案 ModelScope 指南见 GitHub repodocs/MODELSCOPE_GUIDE.md阿里 Coding Plan 配置一个 key 用 4 个模型见 GitHub repo写于 2026-05-18作者路易乔布斯xx号一深思AI