零基础自建知识图谱网站——打通数据链路

张

张建站

2026/5/17 2:29:27

10分钟阅读

最重磅的功能来了先回顾一下前几篇做了几个工作搭建知识图谱网页然后美化提取《汉书·高帝记》的实体、关系图谱搭建图谱编辑页面所谓“数据链路”指的就是“提取数据-校正数据-反馈模型”这三个步骤。为什么要做那么麻烦呢大家都知道现在大模型的能力已经非常强了对古文的理解能力也逐渐提高。但是问题在于除非你对文本和想要的图谱特别熟悉有自己特定的规则否则依靠几句提示词出来的图谱无法达到一个非常高的准确率。如果想把图谱接入大模型做问答直出的数据是不可靠的。所以这里的做法是做一个反馈机制对于人工校正过的部分记录大模型是在哪里错的生成一个“错题本”每次提取之前让它学习一遍避免犯类似的错误。只要校正的越多大模型就会越聪明。当然也可以有其他思路比如让两个大模型的结果交叉验证等等感兴趣的小伙伴可以尝试下实现这个功能。这里我就采用人工校正的方式了。动手做起来现在打开Trae使用plan模式下让它把方案写出来/plan 现在我想做一个工作制作数据提取-数据修改-大模型学习错误-继续提取的操作闭环请帮我出个计划操作流程出来了1. 设置 Tab → 配置 LLM API地址/Key/模型 2. 数据提取 Tab → 选择古籍文本 → 点击「开始提取」 3. 大模型返回实体和关系 → 预览结果 → 点击「导入到编辑器」 4. 实体管理/关系管理 Tab → 人工审核修改 5. 返回数据提取 Tab → 点击「生成修改记录(Diff)」 6. 填写反馈摘要 → 点击「保存反馈」 7. 下次提取时自动注入纠错反馈 → 模型避免同类错误看起来还不错让它执行。会在后台新生成两个页面数据提取页面可以直接选择文本进行提取并且提取前自动读取错题本、设置页面配置大模型API。没有API的小伙伴可以去硅基流动注册一个新账号领16块钱的新人礼。新发布的DeepSeekV4 Flash还是很便宜的定价和32B小模型差不多文本量不大的话应该可以满足测试的需求。如果想继续薅Trae里的模型来提取数据不想自己搞一个API会麻烦一些毕竟网站迟早要独立部署这里我提供一个思路不要做数据提取页面每次生成文本之后在后台进行校正做一个保存差异的功能让Trae每次提取数据的时候把这个差异读一下。接下来跟我的步骤操作就可以获得自己的API了打开硅基流动的主页https://www.siliconflow.cn/正常注册。点击左侧的“实名认证”完成后就可以拿到16块的代金券。继续打开“API密钥”点击“新建API密钥”给这个密钥取个名字就搞定了。点击这个“sk”开头的密钥就可以复制了。接下来选择模型点击左侧第一行“模型广场”选择自己喜欢的模型比如这里我用DSV4点击打开看到输出的话是百万Token只要2块钱可以随便造点击最上面的复制按钮即可复制模型名。回到我们的网站在“设置”页面输入三个东西“API地址”输入“https://api.siliconflow.cn/v1/chat/completions”“API Key”输入“sk”开头的密钥“模型名称”输入“deepseek-ai/DeepSeek-V4-Flash”点击下方的“测试连接”试试可不可以连上。我在测试的时候就出现了连接不上的问题修了半天是硅基流动自己出了问题。正常连接成功的话会提示接入外部大模型成功因为功能的流程是先提取数据才能校正这里先把之前的图谱删掉从头开始用小批量数据做数据闭环。用小批量数据好的地方是上下文长度较短不易产生幻觉而且小数据方便校正可以快速把闭环跑通。选择《高帝记》的前一部分刘邦起兵之前的约1100字开始提取提取成功会显示数据预览这里出了个问题提取好的数据导入到编辑页面都是空的让它修复一下即可。看看花了多少钱吧打开硅基流动的“费用明细”可以看到1100字的提取只花了3k的token大概是半分钱。16块钱提取一本汉书还是问题不大的。但是数据质量就……仔细看的话刘盈变成了刘邦的父亲刘邦的出生地也写的不太行。看来不能直接用DeepSeek生成还是要有约束才行/plan 调用模型没有问题了但是问题是模型生成的图谱质量比较差请生成一个详细的古籍知识图谱生成规则给我确认这时AI会生成一个详细的指导文档可以规定好实体种类、每个种类的生成规则、实体描述信息、实体筛选规则、关系提取规则等等让它执行就行了。这样每次调用API的时候会让AI先读一遍文档和错题本token就是这样消耗的试试怎么样吧第一条就错了。但是不管怎么说它便宜我们多依靠人工给它纠错再让它学习就行。修改一下错误的数据但是没办法保存数据了也没办法生成错题本了。还有就是这个方式使用下来并不合理我打算修改一下做一个更好用的内容反馈机制/plan 现在我认为这套实现起来比较困难请重新设计一下修改数据到生成错题本数据调用AI 要求好用且便于以后重复使用请出一个详细的方案先跟我讨论它出了一个自动保存修改记录并生成错题本的方案1.提取数据 → 导入到编辑器 2.编辑数据改实体名、改类型、删除错误实体等→ 每次操作自动记录到 editLog 3.点击保存数据 → 弹窗选择保存并分析错题 4.自动跳转到错题本 Tab → 点击 AI 分析编辑记录并生成错题 5.AI 返回结构化错题6 大分类人物命名/类型错误/冗余实体/遗漏实体/关系错误/描述问题 6.勾选采纳 → 确认写入错题本 7.下次提取数据时勾选注入历史纠错反馈错题本条目自动格式化为结构化规则注入 system prompt大概意思是每次提取并修改数据之后自动保存修改记录。在错题本页面可以使用AI分析修改记录生成错题本。今后提取的时候可以把反馈给大模型。思路很棒执行现在测试一下吧拿第二段话让AI去执行顺利提取。但是这里还是犯了没有用原名的问题继续分析一下计入错题本这样数据链路就完全打通了网站也越来越正规了下一步打算完善并封装两个skill古籍图谱提取skill网站设计skill这样不管用什么工具都可以拿来就用然后复刻我们在这个项目里生成的经验了。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

第87篇：Vibe Coding时代：LangGraph 上下文压缩实战，解决项目代码太大导致模型上下文爆炸的问题

第87篇：Vibe Coding时代：LangGraph 上下文压缩实战，解决项目代码太大导致模型上下文爆炸的问题一、问题场景：项目文件太多，Agent 根本塞不进上下文真实项目动辄：几百个文件几万行代码大量 README 大量接口文档大量测试如果 Agent 每次都把相关文件大段塞进 Promp…...

2026/5/17 2:27:18 阅读更多 →

避坑指南：爬取米游社图片时，你可能会遇到的User-Agent、路径与命名问题

动态网站爬虫实战：规避User-Agent检测与文件存储的五大陷阱当开发者尝试从米游社这类动态社区抓取图片时，常会陷入看似简单实则暗藏玄机的技术沼泽。上周有位工程师向我展示他的爬虫脚本——能成功获取数据却总在半夜崩溃，最终发现是文件名特…...

2026/5/17 2:26:15 阅读更多 →

第一个GEO优化案例该怎么做？

学GEO，光看理论没用，必须做出第一个实际案例——有了它，你才知道这套方法是否跑通了，才能复制和迭代。下面用一个完整的真实案例拆解来演示，全程用GEO之家的三大工具完成。案例背景假设你是一个做家政服务的小企业主&a…...

2026/5/17 2:25:21 阅读更多 →

app扫描wifi的时候需要打开GPS定位----否则扫不到

这是很奇怪的一个事情，wifi和定位有什么关系？但是就是要打开。...

2026/5/17 0:00:27 阅读更多 →

AMD Ryzen调试神器SMUDebugTool：免费开源工具让你的处理器性能飞起来！

AMD Ryzen调试神器SMUDebugTool：免费开源工具让你的处理器性能飞起来！ 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tab…...

2026/5/17 0:07:16 阅读更多 →

Midjourney抽象表现主义风格迁移全链路（从梵高笔触到AI熵增美学的底层逻辑解密）

更多请点击： https://intelliparadigm.com 第一章：Midjourney抽象表现主义风格迁移全链路（从梵高笔触到AI熵增美学的底层逻辑解密） 抽象表现主义并非仅关乎色彩与笔触的失控，而是神经感知系统在高维特征空间中对抗坍缩…...

2026/5/17 0:11:51 阅读更多 →

2026届毕业生推荐的AI科研方案实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 处在学术研究的起始阶段，开题报告的撰写常常令好多研究生以及青年学者觉得麻烦&…...

2026/5/17 0:12:15 阅读更多 →