零基础自建知识图谱网站——打通数据链路
最重磅的功能来了先回顾一下前几篇做了几个工作搭建知识图谱网页然后美化提取《汉书·高帝记》的实体、关系图谱搭建图谱编辑页面所谓“数据链路”指的就是“提取数据-校正数据-反馈模型”这三个步骤。为什么要做那么麻烦呢大家都知道现在大模型的能力已经非常强了对古文的理解能力也逐渐提高。但是问题在于除非你对文本和想要的图谱特别熟悉有自己特定的规则否则依靠几句提示词出来的图谱无法达到一个非常高的准确率。如果想把图谱接入大模型做问答直出的数据是不可靠的。所以这里的做法是做一个反馈机制对于人工校正过的部分记录大模型是在哪里错的生成一个“错题本”每次提取之前让它学习一遍避免犯类似的错误。只要校正的越多大模型就会越聪明。当然也可以有其他思路比如让两个大模型的结果交叉验证等等感兴趣的小伙伴可以尝试下实现这个功能。这里我就采用人工校正的方式了。动手做起来现在打开Trae使用plan模式下让它把方案写出来/plan 现在我想做一个工作 制作数据提取-数据修改-大模型学习错误-继续提取的操作闭环 请帮我出个计划操作流程出来了1. 设置 Tab → 配置 LLM API地址/Key/模型 2. 数据提取 Tab → 选择古籍文本 → 点击「开始提取」 3. 大模型返回实体和关系 → 预览结果 → 点击「导入到编辑器」 4. 实体管理/关系管理 Tab → 人工审核修改 5. 返回数据提取 Tab → 点击「生成修改记录(Diff)」 6. 填写反馈摘要 → 点击「保存反馈」 7. 下次提取时自动注入纠错反馈 → 模型避免同类错误看起来还不错让它执行。会在后台新生成两个页面数据提取页面可以直接选择文本进行提取并且提取前自动读取错题本、设置页面配置大模型API。没有API的小伙伴可以去硅基流动注册一个新账号领16块钱的新人礼。新发布的DeepSeekV4 Flash还是很便宜的定价和32B小模型差不多文本量不大的话应该可以满足测试的需求。如果想继续薅Trae里的模型来提取数据不想自己搞一个API会麻烦一些毕竟网站迟早要独立部署这里我提供一个思路不要做数据提取页面每次生成文本之后在后台进行校正做一个保存差异的功能让Trae每次提取数据的时候把这个差异读一下。接下来跟我的步骤操作就可以获得自己的API了打开硅基流动的主页https://www.siliconflow.cn/正常注册。点击左侧的“实名认证”完成后就可以拿到16块的代金券。继续打开“API密钥”点击“新建API密钥”给这个密钥取个名字就搞定了。点击这个“sk”开头的密钥就可以复制了。接下来选择模型点击左侧第一行“模型广场”选择自己喜欢的模型比如这里我用DSV4点击打开看到输出的话是百万Token只要2块钱可以随便造点击最上面的复制按钮即可复制模型名。回到我们的网站在“设置”页面输入三个东西“API地址”输入“https://api.siliconflow.cn/v1/chat/completions”“API Key”输入“sk”开头的密钥“模型名称”输入“deepseek-ai/DeepSeek-V4-Flash”点击下方的“测试连接”试试可不可以连上。我在测试的时候就出现了连接不上的问题修了半天是硅基流动自己出了问题。正常连接成功的话会提示接入外部大模型成功因为功能的流程是先提取数据才能校正这里先把之前的图谱删掉从头开始用小批量数据做数据闭环。用小批量数据好的地方是上下文长度较短不易产生幻觉而且小数据方便校正可以快速把闭环跑通。选择《高帝记》的前一部分刘邦起兵之前的约1100字开始提取提取成功会显示数据预览这里出了个问题提取好的数据导入到编辑页面都是空的让它修复一下即可。看看花了多少钱吧打开硅基流动的“费用明细”可以看到1100字的提取只花了3k的token大概是半分钱。16块钱提取一本汉书还是问题不大的。但是数据质量就……仔细看的话刘盈变成了刘邦的父亲刘邦的出生地也写的不太行。看来不能直接用DeepSeek生成还是要有约束才行/plan 调用模型没有问题了但是问题是模型生成的图谱质量比较差 请生成一个详细的古籍知识图谱生成规则给我确认这时AI会生成一个详细的指导文档可以规定好实体种类、每个种类的生成规则、实体描述信息、实体筛选规则、关系提取规则等等让它执行就行了。这样每次调用API的时候会让AI先读一遍文档和错题本token就是这样消耗的试试怎么样吧第一条就错了。但是不管怎么说它便宜我们多依靠人工给它纠错再让它学习就行。修改一下错误的数据但是没办法保存数据了也没办法生成错题本了。还有就是这个方式使用下来并不合理我打算修改一下做一个更好用的内容反馈机制/plan 现在我认为这套实现起来比较困难 请重新设计一下修改数据到生成错题本数据调用AI 要求好用且便于以后重复使用请出一个详细的方案先跟我讨论它出了一个自动保存修改记录并生成错题本的方案1.提取数据 → 导入到编辑器 2.编辑数据 改实体名、改类型、删除错误实体等→ 每次操作自动记录到 editLog 3.点击保存数据 → 弹窗选择保存并分析错题 4.自动跳转到 错题本 Tab → 点击 AI 分析编辑记录并生成错题 5.AI 返回结构化错题6 大分类人物命名/类型错误/冗余实体/遗漏实体/关系错误/描述问题 6.勾选采纳 → 确认写入错题本 7.下次提取数据 时勾选注入历史纠错反馈错题本条目自动格式化为结构化规则注入 system prompt大概意思是每次提取并修改数据之后自动保存修改记录。在错题本页面可以使用AI分析修改记录生成错题本。今后提取的时候可以把反馈给大模型。思路很棒执行现在测试一下吧拿第二段话让AI去执行顺利提取。但是这里还是犯了没有用原名的问题继续分析一下计入错题本这样数据链路就完全打通了网站也越来越正规了下一步打算完善并封装两个skill古籍图谱提取skill网站设计skill这样不管用什么工具都可以拿来就用然后复刻我们在这个项目里生成的经验了。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】