知识图谱(KG)与大型语言模型(LLM):企业数据赋能的强强联合

数据如同企业的生命线,而如何高效地利用数据则成为了企业发展的关键。大型语言模型(LLM)和知识图谱(KG)作为两种强大的数据处理工具,正逐渐改变着企业的运营模式。今天,我们就来深入探讨一下它们在企业中的应用以及如何协同工作,为企业带来更大的价值。

一、LLM 与 KG 的特点与目标

大型语言模型(LLM)借助向量和深度神经网络来预测自然语言,其核心在于通过大量文本数据的学习,能够生成自然流畅的语言文本。像我们熟知的 ChatGPT,在文本生成方面展现出了强大的能力。而知识图谱(KG)则是利用语义将数据集通过其所代表的实体进行连接,它本质上是事实的集合,具有完全可解释性。

对于实施 KG 的企业,其目标往往是打造类似数据市场(语义层)的架构,实现数据的 FAIR 化(可查找、可访问、可交互、可重用),使企业更加以数据为中心。而采用 LLM 或其他生成式 AI(GenAI)解决方案的企业,通常旨在为员工或客户提供一个智能“数字助理”,快速准确地传递信息。

两者的潜在共生关系十分显著。LLM 的主要弱点,如黑盒模型特性和在事实知识方面的不足,恰好是 KG 的优势所在。例如,在我找工作时使用 ChatGPT 生成求职信的经历中,ChatGPT 虽能生成初稿,但会出现错误信息,如赋予我不存在的工作经验和教育背景。这就凸显了 KG 的重要性,它可以确保 LLM 所使用的内容准确无误。因为 LLM 擅长处理非结构化数据(文本),如总结和重组语言,而 KG 则在整合结构化和非结构化数据方面表现出色。

二、KG 与 LLM 的关联方式

(一)LLM 协助 KG 创建和管理

LLM 在 KG 的构建过程中是非常有价值的工具。其中一种关键应用是将 KG 矢量化(或嵌入)到矢量数据库中。矢量数据库是专门用于存储向量(数字列表)的数据库,而矢量化是驱动语言模型的核心技术之一。在训练过程中,语言模型学会将单词与向量相关联,这些向量能够根据单词在训练数据中的上下文捕获其语义和句法信息。通过利用基于大量数据训练的嵌入服务,我们可以将这些信息应用于 KG 管理。

在 KG 创建过程中,LLM 还有以下帮助:

  • 实体解析:例如,对乙酰氨基酚在美国以泰诺品牌销售,在英国叫扑热息痛且以 Panadol 品牌售卖。虽然名称不同,但在将 KG 嵌入向量数据库后,向量的语义理解能够识别出这些其实是同一实体,从而实现实体解析。
  • 非结构化数据的标记:假设有一堆文件名模糊的 PDF 文件,且已知其中包含重要信息。若主题分类法和文档类型分类法已嵌入,只需对文档进行矢量化,矢量数据库就能从分类法中识别出最相关的实体,完成标记。
  • 实体和类提取:基于非结构化数据语料库创建或增强受控词汇表(如本体或分类法)。比如,要填充地理本体,可利用 LLM 从文本语料库中提取城镇、城市、州等实例。若本体中遗漏了“capital”,LLM 也可能将其提取为新类或城市的属性。

(二)KG 为 GenAI 管道提供动力和管理

使用 KG 来支持和管理 GenAI 管道及应用程序具有多方面的优势。据 Gartner 预测,到 2025 年,由于数据质量差、风险控制不足、成本上升或商业价值不明确等原因,至少 30%的 GenAI 项目将在概念验证(POC)后被放弃,而 KG 有助于解决这些问题。

  • 数据管理、访问控制和法规遵从性:企业需要确保只有授权人员和应用程序能按规定访问和使用数据。例如,要防止个人身份信息(PII)进入员工使用的数字助理。这就需要数据治理,而 KG 能够帮助实现这一目标。一些知名的通过 KG 实施数据管理的公司包括 Cambridge Semantics、data.world 等语义 KG 公司,以及 Alation、Collibra 等数据目录公司。
  • 准确性和上下文理解:如果数据存在矛盾或虚假陈述,ChatBot 给出的结果也会不可靠。在数据结构良好的情况下,KG 可为 LLM 提供额外的相关资源,通过多种方式生成更准确的推荐,常见的方法是自然语言查询(NLQ),包括检索增强生成(RAG)、提示查询和微调等。
    • 检索增强生成(RAG):RAG 是在训练数据之外利用其他相关信息补充提示,以生成更准确的响应。以求职信为例,直接让 LLM 生成可能会出现幻觉,更好的做法是让模型检索相关的 LinkedIn 个人资料和职位描述后再生成。目前主要有两种检索方法:
      • 基于向量的检索:先对 KG 进行矢量化并存储在矢量存储中,再对自然语言提示矢量化,在矢量存储中找到与提示最相似的矢量,进而返回图形中最相关的实体。这与非结构化数据标记过程类似。
      • 提示查询检索:利用 LLM 生成 SPARQL 或 Cypher 查询,从图表中获取相关数据。需要注意的是,如果仅用查询获取数据而不补充 LLM 提示,则不属于 RAG 应用。一些实施或启用 RAG 解决方案的公司有 data.world、Microsoft、Neo4j 等。
    • 仅提示查询:使用 LLM 将自然语言查询转换为适用于 KG 的正式查询(如 SPARQL 或 Cypher),目的是减少幻觉,但用户可能因对查询语言了解不足而难以检测自动生成查询的问题。Neo4j、Ontotext 和 Stardog 等公司在这方面有所涉及。
    • 用于微调 LLM 的 KG:使用 KG 为现成的 LLM 提供额外培训,好处是数据可本地保存,但缺点是 LLM 资源密集且微调后仍可能存在幻觉。例如,Stardog 的 Voicebox 是使用 KG 为客户微调 LLM 的解决方案之一。

三、KG 与 LLM 结合的优势总结

  • 效率和可扩展性:构建多个孤立的应用程序会导致数据和代码重复,产生冗余。KG 能够使数据在企业内顺畅流动,为消除这些冗余奠定基础,虽然目前尚无研究明确表明 KG 能显著降低 GenAI 项目成本,但它在提高效率方面的潜力不可忽视。

以上就是今天关于知识图谱与大型语言模型在企业中应用的全部内容,希望能给大家带来启发和帮助。如果您对这方面感兴趣,欢迎持续关注我们的公众号 柏企科技圈,获取更多前沿技术资讯。

推荐阅读

1. 专家混合(MoE)大语言模型:免费的嵌入模型新宠

2. LLM大模型架构专栏|| 从NLP基础谈起

3. AI Agent 架构新变革:构建自己的 Plan-and-Execute Agent

4. 探索 AI 智能体工作流设计模式