蚂蚁自研知识增强大模型服务框架KAG，可显著提升知识推理准确率

标签导航：

近日，在 2024 Inclusion・外滩大会 “超越平面思维，图计算让 AI 洞悉复杂世界” 见解论坛上，蚂蚁集团知识图谱负责人梁磊分享了 “构建知识增强的专业智能体” 相关工作，并带来了知识图谱与大模型结合最新研发成果 —— 知识增强大模型服务框架 KAG。

梁磊介绍，专业领域增强大模型服务框架 KAG 通过图谱逻辑符号引导决策和检索，显著提升了垂直领域决策的精准性和逻辑严谨性；通过信息检索可补全知识图谱的稀疏性和知识覆盖的不足，同时充分利用大语言模型的理解和生成能力降低领域知识图谱的构造门槛。KAG 框架在垂直领域的适用性得到了有效验证。比如，支付宝最新推出的 AI 原生 App “支小宝” 采用这套框架，在政务问答场景的准确率提升到了 91%，医疗问答垂直的指标解读准确率可达 90% 以上。梁磊还透露，KAG 框架会进一步向社区开放，并在开源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支持，也欢迎社区共建。

以下是梁磊在外滩大会上的演讲内容摘要，本站做了不改变原意的整理。

1、可信是大语言模型真正落地应用的前提

大语言模型有着很好的理解和生成能力，在垂直领域的应用有巨大的机会，但同时也存在着非常大的挑战。比如在垂直领域跟专家经验、一些具体业务结合的时候，依然存在着不懂领域知识、做不了复杂决策、不可靠等问题。

蚂蚁自研知识增强大模型服务框架kag，可显著提升知识推理准确率

首先，大语言模型本身不具备比较严谨的思考能力。在一些测试中，我们让大语言模型做复杂问题的拆解，问两部电影之间的共同主演是谁，结果显示总体上回复的准确性和一致性相对较低，甚至还有一些拆解错误。这种情况下，大语言模型很难严格遵从人类的指令。此外，大语言模型还存在事实性不足的问题。今年以来行业尝试把 RAG、搜索引擎之类的技术引入到大语言模型，来补充事实性不足的问题，以及 GraphRAG，用图的方式去重新组织它的检索。但问题是，即便引入了一些外部知识库，把一些垂直领域的知识库和事实文档给到语言模型，模型也不见得能够完全生成一个准确的答案。

除此以外，大模型在外部知识库召回的时候，也依然会存在召回不准的问题。举个基于向量计算的 RAG 的例子。比如问 “怎么查找我的养老金”，常见的有两种做法，一种是直接基于向量计算去召回文档，但是往往和业务专家定义的知识不相关。但在垂直领域，有很多知识在字面上不相似，但却是很相关的。比如政策明确规定了五险一金的范围，大模型不能对这些内容做胡乱生成，这就必须有一些预定义的领域知识和预定义的知识结构，来约束大模型的行为，甚至给它提供一个更有效的知识注入，而这些都是模型在文本上不相似，但却是强相关的。在这种情况下，今年讨论引入知识图谱技术的也越来越多。通过知识图谱的语义相关性来提升模型内容的相关性，以此可以做更好的语义计算和语义的召回。

大模型幻觉也是阻碍应用的关键挑战之一。那么，引入了 RAG、知识库之后，大模型就能解决幻觉问题了吗？其实不然，而且有些幻觉问题不仔细观察便难以察觉。举个例子，比如原文提到功能饮料中的维生素、矿物质等，对运动后补充身体营养、消除疲劳具有一定作用，而大模型重新生成以后，可能会改写成对于增加疲劳有一定作用。这种其实就会给一个错误的引导，但这种错误的引导，尤其是大模型生成的文案可能是几百字，甚至上千字的，这时候就很难从里面观察到这类细节问题。通过测评发现，大语言模型即便是加入 RAG 以后，依然有大概 30% 到 40% 的幻觉率。

在真实业务决策场景，挑战就更多了。以金融场景为例，无论是研报生成，还是医疗问诊等等，业务上都有比较严格的问题规划、信息获取、决策建议，甚至生成和反馈的过程。也就是说，因为大语言模型还是要为人类服务，应用在一个个垂直业务场景，每一类都需要准确的决策过程，如果这个决策过程不能得到很好的控制的话，就很难真正意义上用在垂直领域。在专业性的知识服务场景，大语言模型服务的首要前提是知识精准。这就包括知识的边界是完备的，知识的结构及语义清晰、逻辑严谨。另外，在垂直领域落地，也一定要对时间、数字和逻辑敏感，无论让它做多跳推理，还是逻辑规则数字计算，而这些恰好是大语言模型所不擅长的，包括前一段时间热议的 9.9 和 9.12 比大小的例子。

基于此，我们认为在垂直领域落地的时候，大语言模型一定确保专业和可信。可信是大语言模型真正意义上落地的前提。如果不能保证可信，我们可能不会迎来真正意义上的 AGI 的变革。这也是蚂蚁为什么要做知识增强的重要原因。

2、KAG：专业领域知识增强大模型服务框架

应对大模型在真实应用场景遇到的挑战，蚂蚁研发了基于知识增强在垂直领域的可控生成框架 KAG。