如何在企业级层面将知识图谱和大型语言模型（LLM）结合起来

张

张建站

2026/4/16 0:45:52

10分钟阅读

专注于知识图谱构建与应用开发提供一站式定制服务。涵盖数据采集、实体与关系抽取、图谱建模及优化支持科研与企业场景。可开发智能问答、语义查询与推荐系统并提供可视化分析与Neo4j图数据库搭建助力高效挖掘知识价值实现智能决策与业务落地。大型语言模型 (LLM) 和知识图谱 (KG) 是让更多人访问数据的不同方式。知识图谱利用语义通过数据集的含义即它们所代表的实体来连接数据集。LLM 则使用向量和深度神经网络来预测自然语言。它们的目标通常都是“解锁”数据。对于实施知识图谱的企业而言最终目标通常是构建数据市场、语义层使其数据符合FAIR原则或使其企业更加以数据为中心。这些都是不同的解决方案但最终目标相同更快地将更多数据提供给合适的人。对于实施 LLM 或其他类似 GenAI 解决方案的企业而言目标通常也类似为员工或客户提供“数字助理”以便更快地将正确的信息传递给合适的人。潜在的共生关系显而易见LLM 的一些主要弱点——它们是黑盒模型且难以处理事实性知识——恰恰是知识图谱的最大优势。知识图谱本质上是事实的集合并且完全可以解释。但是在企业中究竟应该如何以及如何将知识图谱和学习领导力模型结合起来实施呢知识图谱和学习逻辑模型之间的两种关联方式知识图谱 (KG) 和逻辑逻辑模型 (LLM) 目前有两种交互方式LLM 作为构建 KG 的工具以及 KG 作为 LLM 或 GenAI 应用的输入。我们这些从事知识图谱领域工作的人处境很特殊我们构建的工具旨在改进 AI 应用而 AI 本身也在不断改变我们构建这些工具的方式。我们既需要在日常工作中优化 AI 作为工具又需要调整输出以促进 AI 的优化。这两种趋势相互关联且经常重叠下文将逐一讨论。利用LLM辅助知识图谱的创建和管理过程语言模型LLM是构建知识图谱KG的宝贵工具。在知识图谱管理过程中利用LLM技术的一种方法是将知识图谱向量化或嵌入到向量数据库中。向量数据库或向量存储是专门用于存储向量或数字列表的数据库。向量化是驱动语言模型的核心技术组件之一甚至可以说是核心组件。这些模型通过海量的训练数据学习将词语与向量关联起来。向量根据词语在训练数据中的上下文捕获其语义和句法信息。通过使用基于这些海量数据训练的嵌入服务我们可以将这些语义和句法信息应用到我们的知识图谱中。注意将知识图谱向量化绝非在知识图谱的构建和整理中使用LLM技术的唯一途径。此外LLM的这些应用对于知识图谱的创建而言也并非新鲜事物。例如自然语言处理NLP已被用于实体提取数十年LLM只是为本体学家/分类学家提供了一种新的辅助功能。在知识图谱KG构建过程中大语言模型LLMs可以发挥的一些作用包括**实体解析**实体解析是指将指向同一现实世界实体的记录进行对齐的过程。例如对乙酰氨基酚在英国被称为扑热息痛以必理通品牌销售。这四个名称完全不同但如果将知识图谱嵌入向量数据库向量将具有语义理解从而知道这些实体密切相关。非结构化数据标记假设您想将一些非结构化数据整合到知识库中。您有一堆文件名模糊的PDF文件但您知道这些文档中包含重要信息。您需要为这些文档添加文件类型和主题标签。如果您的主题分类和文档类型分类已经嵌入您只需将文档向量化向量数据库就会自动识别每个分类中最相关的实体。实体和类提取基于非结构化数据语料库创建或增强受控词汇表例如本体或分类体系。实体提取类似于标注但其目标是增强本体而不是将非结构化数据整合到知识图谱中。假设您有一个地理本体并且想要用城镇、城市、州等实例填充它。您可以使用语言学习模型 (LLM) 从文本语料库中提取实体来填充本体。同样您可以使用 LLM 从语料库中提取类以及类之间的关系。假设您忘记在本体中包含“首都”。LLM 或许能够将其提取为一个新类或城市的属性。利用知识图谱驱动和管理 GenAI 流水线使用知识库来支持和管理您的 GenAI 管道和应用程序有诸多优势。据 Gartner 预测“到 2026 年至少 30% 的 GenAI 项目会在概念验证 (POC) 后因数据质量差、风险控制不足、成本不断攀升或业务价值不明确而被放弃。” 知识库可以帮助提高数据质量、降低风险并减少成本。数据治理、访问控制和监管合规性只有获得授权的人员和应用程序才能出于特定目的访问特定数据。通常企业希望特定类型的人员或应用程序以规范的方式与特定类型的数据进行交互。如何确定哪些数据应该进入哪个 GenAI 流程如何确保个人身份信息 (PII) 不会流入您希望所有员工使用的数字助理答案是数据治理。以下是一些补充要点政策和法规会不断变化尤其是在人工智能领域。即使您的人工智能应用目前符合规定未来也可能不再合规。良好的数据治理基础能够帮助企业适应这些不断变化的法规。有时问题的正确答案是“我不知道”、“你没有获取回答该问题所需信息”或“我回答这个问题是违法或不道德的”。回答的质量不仅仅关乎真实性或准确性还关乎是否符合监管规定。值得关注的通过知识库实施或实现数据治理的参与者按字母顺序排列语义知识库公司如 Cambridge Semantics、 data.world、 PoolParty、 metaphacts和 TopQuadrant 以及数据目录如 Alation、 Collibra和 Informatica 以及更多其他公司。准确性和语境理解知识图谱KG还能帮助提升整体数据质量——如果你的文档充斥着矛盾或虚假陈述那么聊天机器人给出不一致或错误的信息也就不足为奇了。如果你的数据结构混乱仅仅将其存储在一个地方是无济于事的。这就是数据湖的愿景最终演变成数据沼泽的原因。同样如果你的数据结构混乱向量化也无法解决问题只会带来新的难题向量化数据沼泽。然而如果你的数据结构良好知识图谱可以通过多种方式为学习型学习模型LLM提供更多相关资源从而生成更个性化、更准确的推荐。利用知识图谱提升LLM准确性的方法有很多但它们通常都属于自然语言查询 NLQ的范畴——即使用自然语言与数据库进行交互。据我所知目前NLQ的实现方式包括红绿灯RAG、提示查询和微调。检索增强生成 (RAG)RAG 指的是在提示信息的基础上补充训练数据之外的相关信息从而生成更准确的响应。虽然逻辑学习模型 (LLM) 已经基于海量数据进行训练但它们并没有基于你的数据进行训练。想想上面提到的求职信示例。我可以要求 LLM “为 Steve Hedden 撰写一封求职信申请 TopQuadrant 的产品管理职位”它会返回一个答案但这个答案很可能是臆想出来的。更智能的做法是模型接收提示信息后检索 Steve Hedden 的 LinkedIn 个人资料检索 TopQuadrant 的职位描述然后生成求职信。目前有两种主要的检索方法向量化图或将提示信息转换为图查询提示到查询。基于向量的检索这种检索方法需要您将知识图谱向量化并存储在向量存储库中。然后如果您将自然语言提示向量化就可以在向量存储库中找到与提示最相似的向量。由于这些向量对应于知识图中的实体因此您可以根据自然语言提示返回知识图中“最相关”的实体。这与上文“标注”功能中描述的过程完全相同——我们本质上是使用知识图中的相关标签来“标注”提示。**提示查询检索**或者您可以使用 LLM 生成 SPARQL 或 Cypher 查询并使用该查询从图中获取最相关的数据。注意您可以使用提示查询方法直接查询数据库而无需将查询结果作为 LLM 的提示。这并非 RAG 的应用因为您没有“增强”任何内容。此方法将在下文中详细说明。关于 RAG 及其两种检索方法的一些其他优点、缺点和注意事项根据定义RAG 需要一个知识库。知识图谱本身就是一种知识库因此知识图谱的支持者自然也会支持基于知识图谱的 RAG有时称为 GraphRAG。但 RAG 也可以在没有知识图谱的情况下实现。RAG可以根据提示内容以及提示的元数据从您的知识库中提取最相关的数据来补充提示。例如我们可以根据提问者的身份、其访问权限以及其他人口统计信息来定制回复。如上所述使用基于向量的检索方法的一个好处是如果您已将知识图谱嵌入到向量数据库中进行标注和实体解析那么最困难的部分已经完成。查找与提示最相关的实体与使用知识图谱中的实体标注一段非结构化文本并无二致。RAG红绿灯方法为响应提供了一定程度的可解释性。用户现在可以看到提示信息中包含的补充数据以及可能包含问题答案的数据位置。我前面提到过人工智能正在影响我们构建知识图谱的方式而我们却被要求构建能够促进人工智能运行的知识图谱。“提示查询”方法就是一个完美的例子。知识图谱的模式会影响逻辑逻辑模型LLM查询它的效果。如果知识图谱的目的是为人工智能应用提供数据那么“最佳”本体就不再反映现实而是反映人工智能看待现实的方式。理论上更相关的信息应该能减少幻觉但这并不意味着 RAG 可以完全消除幻觉。我们仍然使用语言模型来生成响应因此仍然存在很大的不确定性和幻觉空间。即使有我的简历和职位描述语言模型仍然可能夸大我的经验。对于文本到查询的方法我们使用语言模型来生成知识图谱查询和响应因此实际上存在两个可能出现幻觉的地方。同样RAG 提供了一定程度的可解释性但并非完全如此。例如如果我们使用基于向量的检索模型可以告诉我们它包含了哪些实体因为它们最相关但它无法解释为什么这些实体最相关。如果使用自动生成的知识图谱查询自动生成的查询会“解释”图谱返回某些数据的原因但用户需要了解 SPARQL 或 Cypher 才能完全理解这些数据返回的原因。这两种方法并非互斥许多公司都在同时采用这两种方法。例如Neo4j 提供了关于使用基于向量的检索实现 RAG 以及提示查询生成的教程。就我个人而言我刚刚参加了一个以生命科学领域知识图谱和逻辑逻辑模型 (LLM) 实现为重点的会议而我看到的许多生命科学公司在做报告时都采用了基于向量和提示查询的 RAG 的某种组合方案。实施或启用 RAG 解决方案的知名企业按字母顺序排列data.world、 Microsoft、 Neo4j、 Ontotext、 PoolParty、 SciBite、 Stardog、 TopQuadrant 以及更多其他企业仅提示查询使用语言学习模型 (LLM) 将自然语言查询转换为知识库的正式查询例如 SPARQL 或 Cypher 查询。这与上文所述的 RAG 提示查询检索方法类似区别在于我们不会在检索数据后将其发送给 LLM。其理念是通过使用 LLM 生成查询而不是解释数据可以减少错误信息。然而正如上文所述LLM 生成的查询内容本身可能包含错误信息。这种方法的论点是用户更容易在自动生成的查询中发现错误信息而不是在自动生成的响应中发现错误信息。但我对此持怀疑态度因为许多使用 LLM 生成 SPARQL 查询的用户可能并不熟悉 SPARQL无法发现自动生成的查询中的问题。任何使用提示查询检索实现 RAG 解决方案的人也可以单独实现提示查询。这些方案包括 Neo4j Ontotext和 Stardog利用知识图谱 (KG) 微调 LLM使用您的知识图谱为现成的 LLM 提供额外的训练。您无需在查询时将知识图谱数据作为提示信息的一部分提供RAG而是可以直接使用知识图谱来训练 LLM。这样做的好处是您可以将所有数据保留在本地——无需将提示信息发送给 OpenAI 或其他任何机构。缺点是 LLM 中的第一个 L 代表“大型”因此下载和微调 LLM 模型会消耗大量资源。此外虽然使用企业或行业特定数据微调的模型会更加准确但并不能完全消除幻觉。关于这一点还有一些补充说明一旦你使用图表来微调模型你也将失去使用图表进行访问控制的能力。已经有一些针对不同行业的LLM进行了微调例如针对医疗保健的MedLM 和针对网络安全的SecLM 。根据具体使用场景可能并不需要对语言学习模型LLM进行精细调优。例如如果您主要使用LLM来总结新闻文章那么LLM可能不需要特殊训练。与其使用行业特定信息来微调 LLM一些企业正在使用经过微调以生成代码的 LLM如 Code Llama作为其提示查询解决方案的一部分。**值得关注的是一些厂商正在实施或支持以使用知识库 (KG) 来微调 LLM 的解决方案**据我所知 Stardog的 Voicebox 是唯一使用知识库 (KG) 为客户微调 LLM 的解决方案。**关于我在此列出的知识图谱KG和学习逻辑模型LLM的不同集成方式需要说明的是**这些类别红绿灯、提示查询和微调既不全面也不互斥。实现知识图谱和学习逻辑模型的方法还有很多未来也会有更多。此外这些解决方案之间存在相当大的重叠您可以将它们结合起来使用。例如您可以在微调后的模型上运行基于向量和提示查询的红绿灯混合解决方案。效率和可扩展性构建许多互不相连的独立应用程序效率低下正如戴夫·麦克库姆所说的“ 软件荒漠”。即使这些应用程序“由人工智能驱动”也无济于事。孤立的应用程序会导致数据和代码重复以及整体冗余。知识库为消除这些冗余奠定了基础它能够促进企业内部数据的顺畅流动。Gartner 上述观点认为由于成本不断攀升许多 GenAI 项目将被放弃但我不知道知识库能否显著降低这些成本。我目前还没有看到任何研究或成本效益分析来支持这一观点。为企业开发基于 LLM 的聊天机器人成本很高但开发知识库同样如此。结论我不敢说自己知道“最优”解决方案但正如我上面所说我认为没有人知道。我确实认为知识库和学习型数据库对于任何想要更快地将更多数据提供给合适人员的人来说都是有用的工具而且它们各有优缺点。使用学习型数据库来撰写求职信或监管报告但使用知识库来确保你提供了正确的简历或研究、期刊文章或其他任何资料。总的来说我认为应该尽可能多地利用人工智能来构建、维护和扩展知识图谱而且知识图谱对于希望采用全人类人工智能GenAI技术的企业来说也是必不可少的。原因有以下几点数据治理、访问控制和合规性准确性和上下文理解以及效率和可扩展性学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Go语言如何做文件断点续传_Go语言断点续传下载教程【详解】

...

2026/4/16 0:45:51 阅读更多 →

Epoll的生命周期的庖丁解牛

它的本质是：内核态中一个基于红黑树（存储关注事件）和双向链表（存储就绪事件）的高效事件管理对象。它解决了 select/poll 在海量连接下性能线性下降的问题，实现了 O(1) 复杂度的事件通知。如果把 Epoll 比作…...

2026/4/16 0:36:51 阅读更多 →

别再只做图像识别了！真正赚钱的多模态边缘场景正在爆发——3个已规模化商用的工业质检/远程医疗/智能座舱案例深度解密

第一章：多模态大模型边缘智能应用的产业拐点与技术范式跃迁 2026奇点智能技术大会(https://ml-summit.org) 全球AI基础设施正经历从“云中心密集推理”向“端—边—云协同认知”的历史性位移。多模态大模型（如Llama-3-Vision、Qwen2-VL、Phi-4-Multimo…...

2026/4/16 0:34:41 阅读更多 →