理解GraphRAG（一）：RAG的挑战

程序猿 • 2025年11月7日 09:04:18 • 用户投稿 • 阅读 0

rag（risk assessment grid）是一种通过外部知识源增强现有大型语言模型（llm）的方法，以提供和上下文更相关的答案。在rag中，检索组件获取额外的信息，响应基于特定来源，然后将这些信息输入到llm提示中，以使llm的响应基于这些信息（增强阶段）。与其他技术（例如微调）相比，rag更经济。它还有减少幻觉的优势，通过基于这些信息（增强阶段）提供额外的上下文——你rag成为今天llm任务的（如推荐、文本提取、情感分析等）的流程方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果我们进一步分解这个想法，根据用户意图，我们通常会查询一个向量数据库。向量数据库使用连续的向量空间来捕捉两个概念之间的关系，使用基于接近度的搜索。

向量数据库概述

在向量空间中，无论是文本、图像、音频还是任何其他类型的信息，都被转换为向量。向量是数据在高维空间的数值表示。每个维度对应数据的一个特征，每个维度中的值反映了该特征的强度或存在。通过向量表示，我们可以对数据进行数学运算、距离计算和相似度比较等操作。不同维度对应的值反映了该特征的强度或存在与否。以文本数据为例，可以将每个文档表示为一个向量，其中每个维度表示一个单词在文档中的出现频率。这样，两个文档可以通过计算它们的向量之间的距离来

在数据库中进行基于接近度的搜索，涉及并使用另一个向量查询这些数据库，并搜索在向量空间中“接近”它的向量。向量之间的接近度通常由距离度量来确定，例如欧几里得距离、余弦相似度或曼哈顿距离。向量之间的接近度通常由距离度量来确定，例如欧几里得距离、余弦相似度或曼哈顿距离。

当您在向数据库中执行搜索时，您提供了一个系统将其转换为向量的查询。然后数据库计算该查询向量与数据库中已存储的向量之间的距离或相似性。接近查询向量的向量（根据所选择度量）被认为是最相关的结果。这些最接近查询向量的向量（根据所选度量）被认为是最相关的结果。

基于接近度的搜索在向量数据库中特别强大，适用于推荐系统、信息检索和异常检测等任务。

这种方法使系统能够更直观地运行，并通过理解数据中的上下文和深层含义，更有效地响应用户查询，而不仅仅依赖于表面匹配。

然而，在应用程序连接到数据库进行高级搜索方面存在一些限制，例如数据质量、处理动态知识的能力以及透明度。

RAG的限制

根据文档的大小，RAG大致分为三类：如果文档很小，可以上下文访问；如果文档很大（或有多个文档），在查询时生成较小的块，这些块被索引并用于响应查询。

尽管取得了成功，RAG也有一些缺点。

衡量RAG性能的两个主要指标是困惑度和幻觉，困惑度代表在文本生成过程中同等可能的下一个词的选择数量。即语言模型在其选择上的“困惑”程度。幻觉是AI做出的不真实或想象的陈述。

虽然RAG有助于减少幻觉，但它并没有消除它。如果您有一个小而简洁的文档，您可以减少困惑度（因为LLM的选择很少），并减少幻觉（如果您只询问文档中的内容）。当然，另一方面是，一个单一的小文档会导致一个微不足道的应用。对于更复杂的应用，您需要一种提供更多上下文的方法。

钉钉 AI 助理

钉钉AI助理汇集了钉钉AI产品能力，帮助企业迈入智能新时代。

21 查看详情

例如，考虑单词“bark”——我们至少有两个不同的上下文：

树的上下文：“橡树粗糙的树皮保护它免受寒冷。”

狗的上下文：“邻居的狗每当有人经过他们的房子时，都会大声叫。”

提供更多上下文的一种方法是将RAG与知识图谱结合（一个GRAPHRAG）。

在知识图谱中，这些单词将与它们相关的上下文和含义连接起来。例如，“bark”将与代表“树”和“狗”的节点连接。其他连接可以指示常见动作（例如，树的“保护”、狗的“制造噪音”）或属性（例如，树的“粗糙”、狗的“响亮”）。这种结构化信息允许语言模型根据句子中的其他单词或对话的总体主题选择适当的意义。

在接下来的部分中，我们将看到RAG的局限性以及GRAPHRAG如何解决这些局限性。

原文标题：Understanding GraphRAG – 1: The challenges of RAG

原文作者：ajitjaokar

以上就是理解GraphRAG（一）：RAG的挑战的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/419980.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

如何在Linux中分析服务依赖关系？

上一篇 2025年11月7日 09:04:16

三年销售目标 1000 万台京东与 vivo 音频战略合作全面升级

下一篇 2025年11月7日 09:04:20

Writesonic怎样用生成续写扩篇幅_Writesonic用生成续写扩篇幅【篇幅扩展】

使用Writesonic可有效扩写文章：一、用“Continue Writing”功能生成连贯续写；二、通过“Explain this in detail with examples”指令深化内容；三、以“Provide a counter-argument”引入多视角论述；四、利用FAQ生成器创建…

程序猿
2025年12月2日 • 用户投稿
0000
ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项

在法国巴黎举行了国际计算机视觉大会ICCV（International Conference on Computer Vision）本周开幕作为全球计算机视觉领域顶级的学术会议，ICCV 每两年召开一次。 ICCV的热度一直以来都与CVPR不相上下，屡创新高在今天的开幕式上，ICCV官方公布了今…

程序猿
2025年12月2日 • 用户投稿
0000
生产式AI驱动的主机自动化测试

译者 | 陈峻审校 | 重楼将传统大型主机应用的代码和数据迁移到现代化技术架构上，被认为是企业数字化发展的关键步骤。在追求效率和可扩展性的过程中，这种转变通常涉及从传统大型主机环境迁移到更灵活的云计算或内部部署方案中。这样的转型有助于企业实现更高的灵活性和创新能力，同时降低成本和提高安全性。这种…

程序猿
2025年12月2日 • 用户投稿
0000
「人车交互」新突破！普渡大学发布Talk2Drive框架：可学习/定制的「指令识别」系统

在普渡大学数字孪生实验室的最新研究中，科学家们采用了一项革命性技术——利用大型语言模型（llm）来增强自动驾驶汽车的智能指令解析能力。这一创新为自动驾驶技术的发展带来了新的可能性，有望提高车辆对驾驶指令的理解和响应速度。这项技术的关键是Talk2Drive框架，旨在利用人类自然语言来操控自动驾驶汽…

程序猿
2025年12月2日 • 用户投稿
0000
变革性趋势：生成式人工智能及其对软件开发的影响

人工智能的崛起正在推动软件开发的快速发展。这一强大技术有可能彻底改变我们构建软件的方法，对设计、开发、测试和部署等各个方面都会产生深远影响。对于企图进入动态软件开发领域的企业来说，生成式人工智能技术的问世为它们提供了前所未有的发展机遇。将这一前沿技术纳入其开发流程后，公司可以大幅提升生产效率、缩短…

程序猿
2025年12月2日 • 用户投稿
0000
谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

要说最近最郁闷的公司，谷歌肯定算得上一个：自家的 Gemini 1.5 刚刚发布，就被 OpenAI 的 Sora 抢尽了风头，堪称 AI 界的「汪峰」。具体来说，谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型（涉及文本…

程序猿
2025年12月2日 • 用户投稿
2000
Sora无法替代人类！亚马逊工程师断言：实际工作冲突不可能靠AI解决

这一周，OpenAI视频AI工具Sora一出现，可谓是炸翻了天。「饭碗保不住了」的恐惧，真实地击中了许多人。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片不过，亚马逊的一位工程师Cameron Gould则认为，其实并不必对AI如…

程序猿
2025年12月2日 • 用户投稿
0000
抢在竞争对手苹果之前！Meta发布最新款VR头戴设备

6月1日周四，meta公司ceo马克・扎克伯格抢在苹果公司wwdc大会召开之前，发布了该公司最新一代虚拟现实（vr）头显quest 3，499美元起售。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ Quest 2于2020年秋季面市，售价…

程序猿
2025年12月2日 • 用户投稿
0000
2024国际自动驾驶挑战赛正式开始

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 新赛题：七大赛道，赛题新颖，全方位覆盖相关领域最新最热话题，充分挖掘大模型在自动驾驶及具身智能垂直领域中的应用。高奖金：总奖金池超过12万美金，单赛道最高奖金可达2.7万美金。据不完全统计，奖金…

程序猿
2025年12月1日 • 用户投稿
0000
AI视频又炸了！照片+声音变视频，阿里让Sora女主唱歌小李子说RAP

sora之后，居然还有新的ai视频模型，能惊艳得大家狂转狂赞！ ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片有了它，《狂飙》大反派高启强化身罗翔，都能给大伙儿普法啦（狗头）。这就是阿里最新推出的基于音频驱动的肖像视频生成框架，EM…

程序猿
2025年12月1日 • 用户投稿
1000
让Sora东京女郎唱歌、高启强变声罗翔，阿里人物口型视频生成绝了

有了阿里的 emo，ai 生成或真实的图像「动起来说话或唱歌」变得更容易了。最近，以 OpenAI Sora 为代表的文生视频模型又火了起来。除了文本生成视频，以人为中心的视频合成一直备受关注。比如，专注于“说话人头部”的视频生成，其目标是根据用户提供的音频片段生成面部表情。在技术层面上，生成…

程序猿
2025年12月1日 • 用户投稿
0000
视频生成可以无限长？谷歌VideoPoet大模型上线，网友：革命性技术

蒙娜丽莎打哈欠，小鸡学会举铁……谷歌videopoet大模型表现很亮眼。 2023 年底，科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。本周二，谷歌提出的视频生成大模型上线，立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型，被人们认为是革命性的 zero-shot …

程序猿
2025年12月1日 • 用户投稿
0000
可视化FAISS矢量空间并调整RAG参数提高结果精度

随着开源大型语言模型的性能不断提高，编写和分析代码、推荐、文本摘要和问答(qa)对的性能都有了很大的提高。但是当涉及到qa时，llm通常会在未训练数据的相关的问题上有所欠缺，很多内部文件都保存在公司内部，以确保合规性、商业秘密或隐私。当查询这些文件时，会使得llm产生幻觉，产生不相关、捏造或不一致的…

程序猿
2025年12月1日 • 用户投稿
0000
OpenAI把GPT塞进机器人大脑，具身AGI奇点迫近！英伟达微软参投26亿美金独角兽Figure

人形机器人明星公司Figure迎来了高光时刻！就在刚刚，OpenAI与Figure官宣合作，专为人形机器人打造下一代AI多模态模型。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片这项合作最大的目的是，增强机器人处理语言和推理的能力…

程序猿
2025年12月1日 • 用户投稿
1000
参照人类大脑，学会忘记会让AI大模型变得更好？

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 最近，一支计算机科学家团队研发了一种更灵活、更具弹性的机器学习模型，它们具有周期性遗忘已知信息的能力，这是现有大型语言模型所不具备的特点。实测表明，在很多情况下，“忘却法”的训练效率很高，忘却…

程序猿
2025年12月1日 • 用户投稿
0000
OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱

AGI真的越来越近了！为了确保人类不被AI杀死，在解密神经网络/Transfomer黑箱这一方面，OpenAI从未停下脚步。去年5月，OpenAI团队发布了一个令人震惊的发现：GPT-4竟可以解释GPT-2的三十万神经元！网友纷纷惊呼，智慧原来是这个样子。 ☞☞☞AI 智能聊天, 问答助手, …

程序猿
2025年12月1日 • 用户投稿
3000
如何只用两个Python函数在几分钟内创建完整的计算机视觉应用程序

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 译者 | 李睿审校 | 重楼这篇文章首先简要介绍了计算机视觉应用程序的基本要求。接着，详细介绍了Pipeless这一开源框架，它为嵌入式计算机视觉提供了无服务器开发体验。最后，提供了一个详细…

程序猿
2025年12月1日 • 用户投稿
1000
大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B

大佬出走后，第一个模型来了！就在今天，Stability AI官宣了新的代码模型Stable Code Instruct 3B。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片 Stability是非常重要的，首席执行官离职对Stab…

程序猿
2025年12月1日 • 用户投稿
1000
统一角色、百变场景，视频生成神器PixVerse被网友玩出了花，超强一致性成「杀招」

又双叒叕是一个新功能的亮相。你是否会遇见过想要给图片角色换个背景，但是 AI 总是搞出「物非人也非」的效果。即使在 Midjourney、DALL・E 这样成熟的生成工具中，保持角色一致性还得有些 prompt 技巧，不然人物就会变来变去，根本达不到你想要的结果。不过，这次算是让你遇着了。 AI…

程序猿
2025年12月1日 • 用户投稿
0000
比肩Transformer的Mamba在时间序列上有效吗？

Mamba 是最近最火的模型之一，更是被业内认为可以有取代 Transformer 的潜力。今天介绍的这篇文章，探索了 Mamba 模型在时间序列预测任务上是否有效。本文首先给大家介绍 Mamba 的基础原理，再结合这篇文章探索在时间序列预测场景下 Mamba 是否有效。Mamba 模型是一种基于深…

程序猿
2025年12月1日 • 用户投稿
0000

发表回复

登录后才能评论

理解GraphRAG（一）：RAG的挑战

向量数据库概述

RAG的限制

关于作者

相关推荐

发表回复