从 RAG 到 LLM Wiki，Karpathy 的知识管理新思路

张

张建站

2026/4/9 7:21:17

10分钟阅读

这是 2026 年 4 月最值得关注的 AI 知识管理革命。一个 GitHub Gist三天内收获 5000 Stars催生了数十个开源项目。这一切是怎么开始的前几天Andrej Karpathy在 GitHub 上发布了一个简单的 Gist标题叫LLM Wiki。他在里面描述了一个困扰他很久的问题「我有一个/raw文件夹里面塞满了 PDF 论文、截图、推文、笔记……每次我想查点什么都要让 LLM 重新读一遍这些原始文件。这太浪费了。」他提出的解决方案很简单为什么不让 LLM 把这些原始材料编译成一个结构化的 Wiki第一次阅读时LLM 提取概念、建立交叉引用、标记矛盾后续查询时直接读取编译好的 Wiki而不是原始文件Wiki 是持久的、可复用的知识工件这个想法在 48 小时内引爆了 AI 社区。GitHub 上出现了数十个开源实现其中最受关注的是一个叫Graphify的工具。传统 RAG vs LLM Wiki到底有什么区别去年出现的各种笔记学习软件像是Notion AI、Perplexity 或者各种的工具这类的知识库笔记软件实际上就是 RAG检索增强生成。它们的工作方式是你提问 → 系统搜索原始文档 → 拼接相关段落 → 发给 LLM → 生成回答问题在于他每次都要重新发现知识。可能会出现交叉引用矛盾信息Token 消耗等问题但LLM Wiki 的思路完全不同添加文档 → LLM 编译成 Wiki → 建立交叉引用 → 标记矛盾 ↓你提问 → 直接读取 Wiki → 生成回答答案还可存回 Wiki按照我的理解是传统的RAG像是在翻一本字典书很厚翻得很费劲而且还很耗时间。但是LLM Wiki像是别人整理好的一本笔记比如把字典里面常用字、同义词等信息整理在一起效率更高而且整体之间还有逻辑这个就是LLM Wiki像对于原本RAG的优势。Karpathy 提出了一个清晰的三层架构架构如下原始层不可变你的 PDF、截图永远保持原样是「真相来源」Wiki 层由 LLM 拥有LLM 可以自由修改、重组、更新规范层共同演化你和 LLM 一起维护工作流程核心的功能包括下面这些我就只是把他列举出来操作作用Ingest摄入添加新文件 → LLM 阅读 → 写入 Wiki → 更新 10-15 个相关页面Query查询提问 → 搜索 Wiki → 生成回答 →答案可存回 WikiLint维护定期健康检查 → 发现矛盾、孤立页面、缺失引用实操指南安装和使用 Graphify我尝试安装了这个新的skills主要有可以有两种方式一个是直接在claudecode技能中使用另外是在Obsidian中。1. 安装Graphify方法一使用 pipx推荐macOS 通过 Homebrew 安装的 Python 有安全限制推荐使用pipx在虚拟环境中# 1. 安装 pipx只需一次brew install pipx pipx ensurepath# 2. 重启终端后安装 graphifypipx install graphifyy# 3. 安装 Claude Code 技能graphify install graphify claude install⚠️ 注意PyPI 包名是graphifyy两个 y但命令是graphify方法二直接使用 pip如果你确定环境没问题也可以直接安装pip install graphifyy graphify install2. 直接使用安装完成之后会看到文件中的结构如下graphify-out/├── graph.html # 交互式图谱点击节点、搜索、过滤├── GRAPH_REPORT.md # 核心概念、惊人连接、建议问题├── graph.json # 持久化图谱数周后可查询├── obsidian/ # Obsidian 兼容的 Markdown 文件└── cache/ # SHA256 缓存只处理变更文件打开graph.html你会看到一个交互式的知识图谱每个节点是一个概念连线代表关系可以按「社区」cluster过滤点击节点查看详情3. 和 Obsidian 配合使用想到关系图谱应该最先想到Obsidian内置的功能。Karpathy 明确推荐使用Obsidian作为 Wiki 的载体Obsidian的关系图谱是长这样的优势说明图谱视图按Cmd/Ctrl G一眼看出知识结构本地 Markdown完全控制权无锁定双向链接[[wikilink]]天然支持交叉引用AI 工具集成与 Claude Code 等工具无缝配合使用--obsidian参数生成 Obsidian 兼容文件/graphify ./raw --obsidian生成的 Markdown 文件自带[[wikilink]]交叉引用直接拖进 Obsidian 就能用。4.基本使用和出现问题# 在 Claude Code 中输入/graphify # 在当前目录运行/graphify ./raw # 在指定文件夹运行/graphify ./raw --mode deep # 更激进的推理模式/graphify ./raw --update# 只处理变更的文件# 添加网络资源/graphify add https://arxiv.org/abs/1706.03762 # 添加论文/graphify add https://x.com/karpathy/status/... # 添加推文# 查询图谱/graphify query attention 和 optimizer 有什么联系/graphify path 概念A概念B# 查找两点间路径/graphify explain Transformer# 解释某个概念# 导出格式/graphify ./raw --obsidian# 生成 Obsidian 兼容的 vault/graphify ./raw --svg# 导出 SVG 图/graphify ./raw --wiki# 生成 Wiki 格式index.md 文章Graphify 对中文编码处理有 bugUTF-8 被当作 Latin-1 处理所以会出现中文乱码的问题可以通过运行以下修复脚本#!/usr/bin/env python3修复 Graphify 输出中的中文编码问题import osimport sysdeffix_encoding(text):修复 UTF-8 被当作 Latin-1 的编码问题try:return text.encode(latin-1).decode(utf-8)except:return text # 如果修复失败返回原文deffix_file(filepath):修复单个文件try:withopen(filepath,r, encodingutf-8)as f: content f.read()except:returnFalse fixed fix_encoding(content)if fixed ! content:withopen(filepath,w, encodingutf-8)as f: f.write(fixed)returnTruereturnFalsedefmain(folder):遍历文件夹修复所有 .md 和 .json 文件 fixed_count 0 total_count 0for root, dirs, files in os.walk(folder):forfilein files:iffile.endswith(.md)orfile.endswith(.json): filepath os.path.join(root,file) total_count 1if fix_file(filepath): fixed_count 1print(f✓ 已修复: {file})print(f\n修复完成: {fixed_count}/{total_count} 个文件)if __name__ __main__: folder sys.argv[1]iflen(sys.argv)1else. main(folder)使用方法# 保存脚本为 fix_encoding.py然后运行python3 fix_encoding.py /path/to/graphify-out总结Karpathy 的 LLM Wiki 创意击中了知识管理的核心痛点维护负担。传统知识库Wiki、Notion、Roam的问题是你需要持续投入精力维护交叉引用、更新过期信息、发现矛盾。这是一项枯燥且容易遗漏的工作。LLM Wiki 的洞见是让 LLM 承担这些维护工作。它不会厌倦不会忘记更新链接而且每次交互都让知识库变得更好。但是我觉得这个LLM Wiki可能还有很多可以优化的地方像是我就发现几个问题一个是现在在obsidian中如果知识点太多了最后就会很散而且也看不出重点在哪里。第二个是虽然是有联系但是联系的内容实际上意义不大可能还得知识在每一个知识图谱知识点中真正添加知识链接可能会更有效。不过话说回来这确实也是一个很好用的工具推荐大家使用学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

StructBERT文本相似度模型应用场景：跨境电商商品描述多语种对齐

StructBERT文本相似度模型应用场景：跨境电商商品描述多语种对齐 1. 跨境电商的多语言挑战跨境电商卖家经常面临一个头疼的问题：同一个商品在不同语言市场的描述不一致。中文的商品详情页写得详细生动，翻译成英文后却变得生硬别扭&#xff…...

2026/4/9 7:17:46 阅读更多 →

会计岗位学习数据分析的价值分析

一、会计岗位数据分析能力需求上升的背景数字化转型浪潮席卷各行各业，传统会计职能从核算记录向决策支持转变。企业财务数据量激增，手工处理效率低下，需要借助数据分析工具挖掘数据价值。国际财务报告准则（IFRS）和税务…...

2026/4/9 7:16:47 阅读更多 →

Phi-3-mini-4k-instruct-gguf效果展示：同一提示词下不同温度值（0/0.2/0.5）输出对比

Phi-3-mini-4k-instruct-gguf效果展示：同一提示词下不同温度值（0/0.2/0.5）输出对比 1. 模型简介 Phi-3-mini-4k-instruct-gguf是微软Phi-3系列中的轻量级文本生成模型GGUF版本。这个模型特别适合处理问答、文本改写、摘要整理以及简短创作等…...

2026/4/9 7:16:22 阅读更多 →