利用知识图谱增强RAG模型的能力和减轻大模型虚假印象

在使用大型语言模型(llm)时,幻觉是一个常见问题。尽管llm可以生成流畅连贯的文本,但其生成的信息往往不准确或不一致。为了防止llm产生幻觉,可以利用外部的知识来源,比如数据库或知识图谱,来提供事实信息。这样一来,llm可以依赖这些可靠的数据源,从而生成更准确和可靠的文本内容。

向量数据库和知识图谱

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

使用知识图谱提高RAG的能力,减少大模型幻觉

向量数据库

向量数据库是一组表示实体或概念的高维向量。它们可以用于度量不同实体或概念之间的相似性或相关性,通过它们的向量表示进行计算。

一个向量数据库可以根据向量距离告诉你,“巴黎”和“法国”比“巴黎”和“德国”更相关。

查询向量数据库通常涉及搜索相似的向量或基于特定标准的向量检索。以下是一个查询向量数据库的简单示例。

假设有一个高维向量数据库,存储了客户配置文件。您想找到与给定参考客户相似的客户。

首先,为了将客户定义为一个向量表示,我们可以提取相关特征或属性并将其转换为向量形式。

可以使用适当的算法(如k近邻或余弦相似度)在向量数据库中进行相似度搜索,以识别最相似的邻居。

检索与确定的最近邻向量对应的客户配置文件,这些概要文件表示与参考客户相似的客户,根据定义的相似性度量。

向用户展示检索到的客户配置文件或相关信息,如姓名、人口统计数据或购买历史。

知识图谱

知识图谱是表示实体或概念及其关系(如事实、属性或类别)的节点和边的集合。基于它们的节点和边缘属性,可用于查询或推断关于不同实体或概念的事实信息。

例如,一个知识图可以根据边缘标签告诉你“巴黎”是“法国”的首都。

查询图数据库涉及遍历图结构并根据特定标准检索节点、关系或模式。

假设你有一个表示社交网络的图数据库,其中用户是节点,他们的关系表示为连接节点的边。如果为给定用户找到朋友的朋友(共同联系),那么我们应该进行如下操作:

1、在图数据库中标识表示参考用户的节点。这可以通过查询特定的用户标识符或其他相关标准来实现。

2、使用图查询语言,例如Cypher(在Neo4j中使用)或Gremlin,从参考用户节点遍历图。指定要探索的模式或关系。

MATCH (:User {userId: ‘referenceUser’})-[:FRIEND]->()-[:FRIEND]->(fof:User) RETURN fof

这个查询从参考用户开始,沿着FRIEND关系找到另一个节点(FRIEND),然后沿着另一个FRIEND关系找到朋友的朋友(fof)。

3、对图数据库执行查询,根据查询模式检索结果节点(朋友的朋友),可以获得关于检索节点的特定属性或其他信息。

图数据库可以提供更高级的查询功能,包括过滤、聚合和复杂的模式匹配。具体的查询语言和语法可能会有所不同,但一般的过程涉及遍历图结构以检索符合所需标准的节点和关系。

知识图谱解决“幻觉”问题的优势

知识图谱比向量数据库提供更精确和具体的信息。向量数据库表示两个实体或概念之间的相似性或相关性,而知识图可以更好地理解它们之间的关系。例如知识图谱可以告诉你“埃菲尔铁塔”是“巴黎”的地标,而向量数据库只能表明这两个概念的相似程度,但是具体他们之间如何相关的却没有说明。

知识图支持比向量数据库更多样化、更复杂的查询。向量数据库主要可以回答基于向量距离、相似性或最近邻的查询,这些查询仅限于直接的相似性测量。而知识图可以处理基于逻辑运算符的查询,例如“具有属性Z的所有实体是什么?”或“W和V的共同范畴是什么?”这可以帮助LLM产生更多样化和有趣的文本。

知识图比向量数据库更能进行推理和推断。向量数据库只能提供存储在数据库中的直接信息。而知识图可以提供从实体或概念之间的关系派生的间接信息。例如,一个知识图谱可以根据“巴黎是法国的首都”和“法国位于欧洲”这两个事实推断出“埃菲尔铁塔位于欧洲”。这可以帮助LLM生成更具逻辑性和一致性的文本。

所以知识图谱是一个比向量数据库更好的解决方案。可以为LLM提供了更准确、相关、多样、有趣、合乎逻辑和一致的信息,使它们更可靠地生成准确和真实的文本。但这里的关键是文档文档之间需要有清晰的关系,否则知识图谱将无法捕捉到它。

但是,知识图谱的使用并没有向量数据库那么直接简单,不仅在内容的梳理(数据),应用部署,查询生成等方面都没有向量数据库那么方便,这也影响了它在实际应用中的使用频率。所以下面我们使用一个简单的例子来介绍如何使用知识图谱构建RAG。

代码实现

我们需要使用3个主要工具/组件:

可图大模型 可图大模型

可图大模型(Kolors)是快手大模型团队自研打造的文生图AI大模型

可图大模型 32 查看详情 可图大模型

1、LlamaIndex是一个编排框架,它简化了私有数据与公共数据的集成,它提供了数据摄取、索引和查询的工具,使其成为生成式人工智能需求的通用解决方案。

2、嵌入模型将文本转换为文本所提供的一条信息的数字表示形式。这种表示捕获了所嵌入内容的语义含义,使其对于许多行业应用程序都很健壮。这里使用“thenlper/gte-large”模型。

3、需要大型语言模型来根据所提供的问题和上下文生成响应。这里使用Zephyr 7B beta模型

下面我们开始进行代码编写,首先安装包

%%capture pip install llama_index pyvis Ipython langchain pypdf

启用日志Logging Level设置为“INFO”,我们可以输出有助于监视应用程序操作流的消息

import logging import sys # logging.basicConfig(stream=sys.stdout, level=logging.INFO) logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

导入依赖项

from llama_index import (SimpleDirectoryReader,LLMPredictor,ServiceContext,KnowledgeGraphIndex) # from llama_index.graph_stores import SimpleGraphStore from llama_index.storage.storage_context import StorageContext from llama_index.llms import HuggingFaceInferenceAPI from langchain.embeddings import HuggingFaceInferenceAPIEmbeddings from llama_index.embeddings import LangchainEmbedding from pyvis.network import Network

我们使用Huggingface推理api端点载入LLM

HF_TOKEN = "api key DEEPHUB 123456" llm = HuggingFaceInferenceAPI(model_name="HuggingFaceH4/zephyr-7b-beta", token=HF_TOKEN )

首先载入嵌入模型:

embed_model = LangchainEmbedding(HuggingFaceInferenceAPIEmbeddings(api_key=HF_TOKEN,model_name="thenlper/gte-large") )

加载数据集

documents = SimpleDirectoryReader("/content/Documents").load_data() print(len(documents))  ####Output### 44

构建知识图谱索引

创建知识图谱通常涉及专业和复杂的任务。通过利用Llama Index (LLM)、KnowledgeGraphIndex和GraphStore,可以方便地任何数据源创建一个相对有效的知识图谱。

#setup the service context  service_context = ServiceContext.from_defaults(chunk_size=256,llm=llm,embed_model=embed_model )  #setup the storage context  graph_store = SimpleGraphStore() storage_context = StorageContext.from_defaults(graph_store=graph_store)  #Construct the Knowlege Graph Undex index = KnowledgeGraphIndex.from_documents( documents=documents,max_triplets_per_chunk=3,service_context=service_context,storage_context=storage_context,include_embeddings=True)

Max_triplets_per_chunk:它控制每个数据块处理的关系三元组的数量

Include_embeddings:切换在索引中包含嵌入以进行高级分析。

通过构建查询引擎对知识图谱进行查询

query = "What is ESOP?" query_engine = index.as_query_engine(include_text=True,response_mode ="tree_summarize",embedding_mode="hybrid",similarity_top_k=5,) # message_template =f"""Please check if the following pieces of context has any mention of the keywords provided in the Question.If not then don't know the answer, just say that you don't know.Stop there.Please donot try to make up an answer.  Question: {query} Helpful Answer: """ # response = query_engine.query(message_template) # print(response.response.split("")[-1].strip()) #####OUTPUT ##################### ESOP stands for Employee Stock Ownership Plan. It is a retirement plan that allows employees to receive company stock or stock options as part of their compensation. In simpler terms, it is a plan that allows employees to own a portion of the company they work for. This can be a motivating factor for employees as they have a direct stake in the company's success. ESOPs can also be a tax-efficient way for companies to provide retirement benefits to their employees.

可以看到,输出的结果已经很好了,可以说与向量数据库的结果非常一致。

最后还可以可视化我们生成的图谱,使用Pyvis库进行可视化展示

from pyvis.network import Network from IPython.display import display g = index.get_networkx_graph() net = Network(notebook=True,cdn_resources="in_line",directed=True) net.from_nx(g) net.show("graph.html") net.save_graph("Knowledge_graph.html") # import IPython IPython.display.HTML(filename="/content/Knowledge_graph.html")

使用知识图谱提高RAG的能力,减少大模型幻觉

使用知识图谱提高RAG的能力,减少大模型幻觉

使用知识图谱提高RAG的能力,减少大模型幻觉

通过上面的代码我们可以直接通过LLM生成知识图谱,这样简化了我们非常多的人工操作。如果需要更精准更完整的知识图谱,还需要人工手动检查,这里就不细说了。

数据存储,通过持久化数据,可以将结果保存到硬盘中,供以后使用。

storage_context.persist()

存储的结果如下:

使用知识图谱提高RAG的能力,减少大模型幻觉

总结

向量数据库和知识图谱的区别在于它们存储和表示数据的方法。向量数据库擅长基于相似性的操作,依靠数值向量来测量实体之间的距离。知识图谱通过节点和边缘捕获复杂的关系和依赖关系,促进语义分析和高级推理。

对于语言模型(LLM)幻觉,知识图被证明优于向量数据库。知识图谱提供了更准确、多样、有趣、有逻辑性和一致性的信息,减少了LLM产生幻觉的可能性。这种优势源于它们能够提供实体之间关系的精确细节,而不仅仅是表明相似性,从而支持更复杂的查询和逻辑推理。

在以前知识图谱的应用难点在于图谱的构建,但是现在LLM的出现简化了这个过程,使得我们可以轻松的构建出可用的知识图谱,这使得他在应用方面又向前迈出了一大步。对于RAG,知识图谱是一个非常好的应用方向。

以上就是利用知识图谱增强RAG模型的能力和减轻大模型虚假印象的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/441668.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 18:54:11
下一篇 2025年11月7日 18:55:13

相关推荐

  • Microsoft Teams如何设置访客权限 Microsoft Teams外部协作的安全管理

    首先登录Microsoft 365管理中心启用Teams访客访问功能,接着在Azure AD中配置目录范围与信息可见性限制,最后通过敏感度标签、审核日志、DLP策略及文件共享设置实施沟通与内容安全管控,实现外部协作的安全管理。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 D…

    2025年12月6日 科技
    000
  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • Linux下安装SQLServer2019的方法

    可以直接参考官方文档:https://www.php.cn/link/32824c14387bff0a269b11c976c1d0d0 安装SQL Server 首先,下载 SQL Server 2019 (15.x) 的 Red Hat 存储库配置文件: sudo curl -o /etc/yum…

    2025年12月4日
    000
  • Linux实现自动挂载autofs的方法详解

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 目录 实现自动挂载-autofs autofs工具简单使用 autofs配置详细说明 自动挂载资源有两种格式 优化Linux系统性能 安装Tuned 选择调整配置文件 检查系统推荐的调整配置文件…

    2025年12月4日
    200
  • RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

    清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。 论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用,尤…

    2025年12月3日 科技
    100
  • 构建AI智能体:决策树的核心机制(一):刨根问底鸢尾花分类中的参数推理计算

    ​一、初识决策树 想象一个生活中的场景,我们去水果店买一个西瓜,该怎么判断一个西瓜是不是又甜又好的呢?我们可能会问自己一系列问题: 首先看看它的纹路清晰吗?如果“是”,那么它可能是个好瓜。如果“否“,那我们可能会问下一个问题:敲起来声音清脆吗? 如果“是”,那么它可能还是个不错的瓜。如果“否“,那我…

    2025年12月2日 科技
    000
  • DeepSeek怎样用代码解释器绘函数图_DeepSeek用代码解释器绘函数图【函数绘图】

    首先确保导入numpy和matplotlib库,然后定义函数表达式并生成x、y坐标点,接着调用plt.plot()绘制曲线并添加标签和网格,最后使用plt.show()显示图像或plt.savefig()保存为文件。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSe…

    2025年12月2日 科技
    000
  • Writesonic怎样用生成续写扩篇幅_Writesonic用生成续写扩篇幅【篇幅扩展】

    使用Writesonic可有效扩写文章:一、用“Continue Writing”功能生成连贯续写;二、通过“Explain this in detail with examples”指令深化内容;三、以“Provide a counter-argument”引入多视角论述;四、利用FAQ生成器创建…

    2025年12月2日 科技
    000
  • 亚马逊发布 Bedrock,推出多项新功能,助力企业利用生成式AI技术

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 亚马逊网络服务公司近日在生态系统中推出了五款全新的生成式人工智能产品,这些产品将帮助企业客户利用自己的数据建立人工智能应用程序,并提供更好的安全性和模型的可及性。 这些新服务的包括全面推出的Am…

    2025年12月2日
    000
  • ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

    在法国巴黎举行了国际计算机视觉大会ICCV(International Conference on Computer Vision)本周开幕 作为全球计算机视觉领域顶级的学术会议,ICCV 每两年召开一次。 ICCV的热度一直以来都与CVPR不相上下,屡创新高 在今天的开幕式上,ICCV官方公布了今…

    2025年12月2日 科技
    000
  • 最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星

    如果你曾经与任何一款对话式 AI 机器人交流过,你一定会记得一些令人感到非常沮丧的时刻。比如,你在前一天的对话中提到的重要事项,被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文,就像为考试而临时抱佛脚的学生,稍加盘问就会「露出马脚」。 如果AI助手能够在聊天中根据上下文参考…

    2025年12月2日 科技
    000
  • PyTorch+昇腾 共促AI生态创新发展

    2023年10月5日(北京时间),pyt%ignore_a_1%rch社区正式发布了2.1版本。经过pytorch社区与昇腾的持续合作和共同努力,pytorch 2.1版本已经同步支持昇腾npu。这意味着开发者可以直接在pytorch 2.1上进行基于昇腾的模型开发。未来,通过持续的社区技术贡献,昇…

    2025年12月2日 科技
    100
  • 生产式AI驱动的主机自动化测试

    译者 | 陈峻 审校 | 重楼 将传统大型主机应用的代码和数据迁移到现代化技术架构上,被认为是企业数字化发展的关键步骤。在追求效率和可扩展性的过程中,这种转变通常涉及从传统大型主机环境迁移到更灵活的云计算或内部部署方案中。这样的转型有助于企业实现更高的灵活性和创新能力,同时降低成本和提高安全性。这种…

    2025年12月2日 科技
    000
  • Kubernetes调试终极武器: K8sGPT

    随着人工智能和机器学习技术的不断发展,企业和组织开始积极探索创新战略,以利用这些技术来提升竞争力。 K8sGPT[2]是该领域内功能强大的工具之一,它是基于k8s的GPT模型,兼具k8s编排的优势和GPT模型出色的自然语言处理能力。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使…

    2025年12月2日 科技
    000
  • 「人车交互」新突破!普渡大学发布Talk2Drive框架:可学习/定制的「指令识别」系统

    在普渡大学数字孪生实验室的最新研究中,科学家们采用了一项革命性技术——利用大型语言模型(llm)来增强自动驾驶汽车的智能指令解析能力。这一创新为自动驾驶技术的发展带来了新的可能性,有望提高车辆对驾驶指令的理解和响应速度。 这项技术的关键是Talk2Drive框架,旨在利用人类自然语言来操控自动驾驶汽…

    2025年12月2日 科技
    000
  • 选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试

    openai最近宣布推出他们的最新一代嵌入模型embedding v3,他们声称这是性能最出色的嵌入模型,具备更高的多语言性能。这一批模型被划分为两种类型:规模较小的text-embeddings-3-small和更为强大、体积较大的text-embeddings-3-large。 ☞☞☞AI 智能…

    2025年12月2日 科技
    000
  • 变革性趋势:生成式人工智能及其对软件开发的影响

    人工智能的崛起正在推动软件开发的快速发展。这一强大技术有可能彻底改变我们构建软件的方法,对设计、开发、测试和部署等各个方面都会产生深远影响。 对于企图进入动态软件开发领域的企业来说,生成式人工智能技术的问世为它们提供了前所未有的发展机遇。将这一前沿技术纳入其开发流程后,公司可以大幅提升生产效率、缩短…

    2025年12月2日 科技
    000
  • 谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

    要说最近最郁闷的公司,谷歌肯定算得上一个:自家的 Gemini 1.5 刚刚发布,就被 OpenAI 的 Sora 抢尽了风头,堪称 AI 界的「汪峰」。 具体来说,谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型(涉及文本…

    2025年12月2日 科技
    200
  • Sora无法替代人类!亚马逊工程师断言:实际工作冲突不可能靠AI解决

    这一周,OpenAI视频AI工具Sora一出现,可谓是炸翻了天。 「饭碗保不住了」的恐惧,真实地击中了许多人。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片 不过,亚马逊的一位工程师Cameron Gould则认为,其实并不必对AI如…

    2025年12月2日 科技
    000
  • 马斯克预测 Grok 5 实现通用人工智能概率 10%且还在上升

    近日,特斯拉与 spacex 首席执行官马斯克在社交平台上发表言论,预测其旗下人工智能公司 xai 正在研发的 grok 5 大型语言模型,有 10% 的可能性实现通用人工智能(agi),并指出这一概率正持续攀升。 上个月,马斯克就曾提出 xAI 或将通过 Grok 5 达成 AGI 的目标,此番言…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信