RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

检索增强生成(RAG)和微调(Fine-tuning)是提升大语言模型性能的两种常用方法,那么到底哪种方法更好?在建设特定领域的应用时哪种更高效?微软的这篇论文供你选择时进行参考。

在构建大语言模型应用程序时,常常使用两种方法来整合专有和特定领域的数据:检索增强生成和微调。检索增强生成是通过引入外部数据来增强模型的生成能力,而微调则是将额外的知识融入到模型本身中。然而,对于这两种方法的优缺点,我们的了解还不够充分。

本文介绍了微软研究者提出的一个新的关注点,即为农业行业创建具有特定背景和自适应响应能力的AI助手。通过引入一个全面的大语言模型流程,可以生成高质量的、行业特定的问题和答案。该流程包含了一系列系统化的步骤,首先是鉴别和收集涵盖广泛农业主题的相关文档。然后对这些文档进行清理和结构化,以便使用基本的GPT模型生成有意义的问答对。最后,生成的问答对会根据其质量进行评估和筛选。这一方法为农业行业提供了一个有力的工具,可以提供准确、实用的信息,帮助农民和相关从业人员更好地应对各种问题和挑战。

本文旨在为农业行业创造有价值的知识资源,以农业作为案例研究。其最终目标是为农业领域的LLM发展作出贡献。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

论文地址:https://arxiv.org/pdf/2401.08406.pdf

论文标题:RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture

本文流程的目标是生成满足特定行业专业人员和利益相关者需求的领域特定问题和答案。在该行业中,期望从AI助手那里获得的答案应基于相关的行业特定因素。

本文涉及的是农业研究,目标是生成该特定领域的答案。因此研究的起点是农业数据集,它被输入到三个主要组件中:问答生成、检索增强生成和微调过程。问答生成根据农业数据集中的信息创建问答对,检索增强生成将其用作知识源。生成的数据经过精炼,并用于微调多个模型,其质量通过一组提出的度量标准进行评估。通过这种全面的方法,利用大语言模型的力量,造福农业行业及其他利益相关者。

本文对大语言模型在农业领域的理解做出了一些特殊贡献,这些贡献可以归纳如下:

1、对 LLMs 的全面评估:本文对大语言模型进行了广泛评估,包括 LlaMa2-13B、GPT-4 和 Vicuna,以回答与农业相关的问题。使用了来自主要农业生产国的基准数据集进行评估。本文的分析中,GPT-4 一直表现优于其它模型,但也需要考虑与其微调和推理相关的成本。

2、检索技术和微调对性能的影响:本文研究了检索技术和微调对 LLMs 性能的影响。研究发现,检索增强生成和微调都是提高 LLMs 性能的有效技术。

3、LLMs 在不同行业潜在应用的影响:对于想要建立 RAG 和微调技术在 LLMs 中应用的流程而言,本文走出了开创性的一步,并促进了多个行业之间的创新和合作。

方法

本文第 2 部分详细介绍采用了方法论,包括数据获取过程、信息提取过程、问题和答案生成,以及模型的微调。该方法论围绕着一个旨在生成和评估用于构建领域特定助手的问答对流程展开,如下图 1 所示。

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

该流程以数据获取开始,这包括从各种高质量的存储库中获取数据,比如政府机构、科学知识数据库,以及必要时使用专有数据。

在完成数据获取后,流程继续从收集的文档中提取信息。这一步骤至关重要,因为它涉及解析复杂且非结构化的 PDF 文件,以恢复其中的内容和结构。下图 2 展示了数据集中一个 PDF 文件的示例。

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

流程的下一个组成部分是问题和答案生成。这里的目标是生成有上下文基础的高质量问题,准确反映提取文本的内容。本文方法采用了一个框架来控制输入和输出的结构组成,从而增强语言模型生成响应的整体效果。

随后,流程为制定的问题生成答案。此处采用的方法利用了检索增强生成,结合了检索和生成机制的能力,以创建高质量的答案。

最后,流程通过 Q&A 对微调模型。优化过程采用了低秩调整(LoRA)等方法,确保全面理解科学文献的内容和背景,使其成为各个领域或行业的有价值资源。

数据集

研究中评估了经过微调和检索增强生成的语言模型,使用与背景相关的问题和答案数据集,这些数据集来源于三个主要的作物生产国:美国、巴西和印度。本文的案例中,以农业作为工业背景。可用的数据在格式和内容上变化很大,涵盖了法规文件、科学报告、农学考试以及知识数据库等各种类型。

本文从美国农业部、州农业和消费者服务机构等公开可获得的在线文档、手册和报告中收集了信息。

可获得的文档包括了有关作物和牲畜管理、疾病和最佳实践的联邦法规和政策信息,质量保证和出口法规,援助计划的详细信息,以及保险和定价指南。收集的数据总计超过 23,000 个 PDF 文件,包含超过 5000 万个 tokens,涵盖了美国 44 个州。研究者下载并预处理了这些文件,提取了可以用作问答生成流程输入的文本信息。

为了对模型进行基准测试和评估,本文使用了与华盛顿州相关的文档,其中包括 573 个文件,包含超过 200 万个 tokens。如下清单 5 展示了这些文件中的内容示例。

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

度量标准

本节的主要目的是建立一套全面的度量标准,目的是指导对问答生成过程的质量评估,尤其是对微调和检索增强生成方法的评估。

在开发度量标准时,必须考虑几个关键因素。首先,问题质量中固有的主观性提出了重大挑战。

其次,度量标准必须考虑到问题的相关性、实用性对上下文的依赖性。

第三,需要评估生成问题的多样性和新颖性。强大的问题生成系统应该能够产生涵盖给定内容各个方面的广泛问题。然而,对多样性和新颖性进行量化可能面临着挑战,因为这涉及到评估问题的独特性以及它们与内容、其他生成问题的相似性。

最后,好的问题应该能够基于提供的内容得到回答。评估问题是否可以使用现有信息来准确回答,这需要对内容进行深刻的理解,并具备识别回答问题的相关信息的能力。

这些度量标准在确保模型提供的答案准确、相关且有效地回答问题方面发挥着不可或缺的作用。然而,在专门设计用于评估问题质量的度量标准方面存在显著的缺失。

意识到这一缺失,本文专注于开发旨在评估问题质量的度量标准。考虑到问题在推动有意义的对话和生成有用答案方面的关键作用,确保问题质量与确保答案质量同样重要。

本文开发的度量标准旨在弥补以往研究在这一领域的空缺,提供一种全面评估问题质量的手段,这将对问答生成过程的进展产生显著影响。

问题评估

本文开发的用于评估问题的度量标准如下:

相关性

全局相关性

覆盖范围

重叠度

多样性

详细程度

流畅度

答案评估

由于大语言模型倾向于生成长而详细的、富有信息的对话式回答,因此评估它们生成的答案是具有挑战性的。

本文使用了 AzureML 模型评估,采用以下度量标准来将生成的答案与实际情况进行比较:

一致性:在给定上下文的情况下,比较实际情况与预测之间的一致性。

相关性:衡量答案在上下文中如何有效地回答问题的主要方面。

真实性:定义了答案是否逻辑上符合上下文中包含的信息,并提供一个整数分数来确定答案的真实性。

模型评估

为了评估不同的微调模型,本文使用了 GPT-4 作为评估器。利用 GPT-4 从农业文档中生成了约 270 个问题和答案对,作为实际情况数据集。对于每个微调模型和检索增强生成模型,生成这些问题的答案。

本文对 LLMs 进行了多个不同度量标准的评估:

带有指南的评估:对于每个问答实际情况对,本文提示 GPT-4 生成一个评估指南,列出正确答案应包含的内容。然后,GPT-4 被提示根据评估指南中的标准,为每个答案打分,分数范围从 0 到 1。下面是一个例子:

必应图像创建器 必应图像创建器

微软必应出品的AI绘图工具

必应图像创建器 453 查看详情 必应图像创建器

简洁性:创建了描述简洁和冗长答案可能包含内容的评分表。基于该评分表、实际情况答案和 LLM 答案提示 GPT-4,并要求根据 1 到 5 的分数给出评分。

正确性:本文创建了一个描述完整、部分正确或不正确的答案应包含内容的评分表。基于该评分表、实际情况答案和 LLM 答案提示 GPT-4,并要求给出正确、不正确或部分正确的评分。

实验

本文的实验被划分为几个独立的实验,每个实验都侧重于问答生成和评估、检索增强生成和微调的特定方面。

这些实验探索以下领域:

问答质量

上下文研究

模型到度量的计算

组合生成与分别生成对比

检索消融研究

微调

问答质量

该实验评估了三个大语言模型,即 GPT-3、GPT-3.5 和 GPT-4,在不同上下文设置下生成的问答对的质量。质量评估基于多个指标,包括相关性、覆盖范围、重叠度和多样性。

上下文研究

该实验研究了不同上下文设置对模型生成问答对性能的影响。它在三种上下文设置下评估生成的问答对:无上下文、上下文和外部上下文。表 12 中提供了一个示例。

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

在无上下文设置中,GPT-4 在三个模型中具有最高的覆盖率和大小的提示,表明它可以涵盖更多的文本部分,但生成的问题更冗长。然而,三个模型在多样性、重叠度、相关性和流畅度方面的数值都相似。

当包含上下文时,与 GPT-3 相比,GPT-3.5 的覆盖率略有增加,而 GPT-4 保持了最高的覆盖率。对于 Size Prompt,GPT-4 具有最大的数值,表明其能够生成更冗长的问题和答案。

在多样性和重叠度方面,三个模型表现相似。对于相关性和流畅度,与其他模型相比,GPT-4 略有增加。

在外部上下文设置中,也有类似的情况。

此外,观察每个模型时,无上下文设置似乎在平均覆盖率、多样性、重叠度、相关性和流畅度方面为 GPT-4 提供了最佳平衡,但生成的问答对较短。上下文设置导致了较长的问答对和其他指标的轻微下降,除了大小。外部上下文设置生成的问答对最长,但保持了平均覆盖率,并在平均相关性和流畅度上略有增加。

总体而言,对于 GPT-4,无上下文设置在平均覆盖率、多样性、重叠度、相关性和流畅度方面似乎提供了最佳平衡,但生成的答案较短。上下文设置导致了更长的提示和其他指标的轻微下降。外部上下文设置生成的提示最长,但保持了平均覆盖率,并在平均相关性和流畅度上略有增加。

因此,在这三者之间的选择将取决于任务的具体要求。如果不考虑提示的长度,则由于更高的相关性和流畅度分数,外部上下文可能是最佳选择。

模型到度量的计算

该实验比较了在用于计算评估问答对质量的度量标准时,GPT-3.5 和 GPT-4 的表现。

总体上,虽然 GPT-4 通常将生成的问答对评价为更具流畅性和上下文真实性,但与 GPT-3.5 的评分相比, 它们的多样性和相关性较低。这些观点对于理解不同模型如何感知和评估生成内容的质量至关重要。

组合生成与单独生成的对比

该实验探讨了单独生成问题和答案与组合生成问题和答案之间的优劣,并侧重于在 token 使用效率方面的比较。

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

总的来说,仅生成问题的方法提供更好的覆盖范围和较低的多样性,而组合生成方法在重叠度和相关性方面得分更高。在流畅度方面,两种方法表现相似。因此在这两种方法之间的选择将取决于任务的具体要求。

如果目标是覆盖更多信息并保持更多的多样性,那么只生成问题的方法会更受青睐。然而,如果要与源材料保持较高的重叠度,那么组合生成方法将是更好的选择。

检索消融研究

这个实验评估了检索增强生成的检索能力,这是一种通过在问题回答过程中提供额外上下文来增强 LLMs 固有知识的方法。

本文研究了检索的片段数量 (即 top-k) 对结果的影响,并在表 16 中呈现了结果。通过考虑更多的片段,检索增强生成能够更一致地恢复原始摘录。

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

为确保模型能够处理来自各种地理背景和现象的问题,需要扩展支持文档的语料库,以涵盖各种主题。随着考虑更多文档,预计索引的大小将增加。这可能会在检索过程中增加相似片段之间的碰撞数量,从而阻碍恢复输入问题的相关信息的能力,降低召回率。

微调

该实验评估了微调模型与基础指令微调模型的性能差异。目的在于了解微调对帮助模型学习新知识的潜力。

对于基础模型,本文评估了开源模型 Llama2-13B-chat 和 Vicuna-13B-v1.5-16k。这两个模型相对较小,代表了计算与性能之间的有趣权衡。这两个模型都是 Llama2-13B 的微调版本,使用了不同的方法。

Llama2-13B-chat 通过监督微调和强化学习进行了指令微调。Vicuna-13B-v1.5-16k 是通过在 ShareGPT 数据集上进行监督微调的指令微调版本。此外,本文还评估了基础的 GPT-4,作为一个更大、更昂贵和更强大的替代方案。

对于微调模型,本文直接在农业数据上对 Llama2-13B 进行微调,以便将其性能与为更通用任务进行微调的类似模型进行比较。本文还对 GPT-4 进行微调,以评估微调在非常大的模型上是否仍然有帮助。带有指南的评估结果见表 18。

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

为全面衡量回答的质量,除了准确性外,本文还评估了回答的简洁性。

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

表 21 中显示,这些模型并不始终对问题提供完整的回答。例如,有些回答指出土壤流失是一个问题,但并没有提到空气质量。

总的来说,就准确而简洁地回答参考答案而言,性能最好的模型是 Vicuna + 检索增强生成、GPT-4 + 检索增强生成、GPT-4 微调和 GPT-4 微调 + 检索增强生成。这些模型提供了精确性、简洁性和信息深度的平衡混合。

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

知识发现

本文的研究目标是探索微调对帮助 GPT-4 学习新知识的潜力,这对应用研究至关重要。

为了测试这一点,本文选择了在美国的 50 个州中至少有三个州相似的问题。然后计算了嵌入的余弦相似度,并确定了 1000 个这样的问题列表。这些问题从训练集中删除,使用微调和带有检索增强生成的微调来评估 GPT-4 是否能够根据不同州之间的相似性学习新知识。

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

更多实验结果请参阅原论文。

以上就是RAG还是微调?微软出了一份特定领域大模型应用建设流程指南的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/426758.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
OPPO Reno12 AI美颜模式解析 OPPO Reno12 照片优化
上一篇 2025年11月7日 12:05:30
Win10改win7 bios设置的具体方法
下一篇 2025年11月7日 12:05:34

相关推荐

  • Go与.NET互操作:在Go应用中调用.NET库的策略

    本文探讨了在go应用中集成.net库或ui的策略。核心方法是通过在go进程中宿主.net clr,利用c-callable dll作为桥梁。文章将介绍这种技术的可行性,并讨论实现过程中可能遇到的技术细节和注意事项,帮助开发者实现go与.net之间的互操作性。 引言 在现代软件开发中,跨语言互操作性是…

    2026年5月10日
    000
  • C++如何为项目配置调试环境

    配置C++调试环境需生成调试符号并正确设置IDE或调试器。首先编译时添加-g(GCC/Clang)或/Zi(MSVC)以生成调试信息,使用CMake时设CMAKE_BUILD_TYPE为Debug;其次在IDE中配置可执行文件路径、工作目录、命令行参数、环境变量及调试器类型(如GDB、LLDB),V…

    2026年5月10日
    000
  • typescript用来干嘛_typescript的作用

    TypeScript 是一种用于构建大型复杂应用程序的开源编程语言,它扩展了 JavaScript 的功能,具有以下作用:类型系统:编译时检查类型错误,提高代码可靠性。面向对象编程特性:支持类、接口、抽象类,增强代码组织性和维护性。模块系统:分解程序为可重用模块,提升可维护性和可扩展性。全面的类型推…

    2026年5月10日
    000
  • C++开发环境配置Visual Studio的完整流程

    配置C++开发环境需先安装Visual Studio并勾选“使用C++的桌面开发”工作负载,它包含MSVC编译器、Windows SDK、标准库和项目模板等核心组件。创建项目后可编写代码并运行调试。集成第三方库时,头文件-only库只需配置“附加包含目录”;静态库或动态库还需设置“附加库目录”和“附…

    2026年5月10日
    000
  • OneDrive跨设备同步,HTML+CSS走到哪写到哪!

    OneDrive通过云同步实现HTML和CSS代码跨设备实时协作。将项目存于OneDrive文件夹并登录账户,可自动同步至所有设备;在Surface Pro 9运行Windows 11环境下,使用Visual Studio Code打开OneDrive中的项目目录,保存即触发后台同步;移动端安装On…

    2026年5月10日
    000
  • 如何添加html运行框_在网页中添加HTML代码运行框【添加】

    可实时运行HTML代码的交互式编辑框可通过三种方案实现:一、CodeMirror+iframe动态执行,用document.write渲染;二、JSFiddle风格iframe沙箱,用srcdoc属性加载;三、Monaco Editor+Blob URL,提供专业编辑体验。 如果您希望在网页中嵌入一…

    2025年12月23日
    100
  • 优化@font-face配置:确保自定义字体在移动设备上的兼容性与显示

    本文深入探讨了自定义字体通过@font-face规则在移动设备上无法正确显示的问题,并提供了详细的解决方案。核心在于优化字体格式的声明顺序,强调优先使用ttf、woff2和woff等广泛支持的字体格式,以提升跨平台兼容性,确保自定义字体在包括各类移动设备在内的所有环境中均能稳定渲染。 理解@font…

    2025年12月23日
    800
  • 解决移动设备上 @font-face 字体不显示的兼容性指南

    移动设备上 @font-face 字体显示异常,常见原因是字体格式优先级配置不当。本文将深入探讨不同字体格式的兼容性,并提供一套优化后的 @font-face 声明最佳实践,确保自定义字体在各类设备和浏览器上都能稳定加载与显示。 在现代网页设计中,自定义字体通过 @font-face 规则提供了丰富…

    2025年12月23日
    300
  • vs中的html怎么运行环境_vs配置html运行环境步骤【指南】

    在 Visual Studio 中运行 HTML 需通过 Web 项目模板并借助 IIS Express 服务。1. 安装 VS 时勾选“ASP.NET 和 Web 开发”工作负载;2. 创建 ASP.NET 项目,添加 HTML 页面;3. 编写代码后设为起始页,点击 IIS Express 运行…

    2025年12月23日
    400
  • HTML文本在span中怎么设置样式_HTML文本在span中如何局部调整字体与颜色

    使用span标签结合style属性可对文本局部设置颜色、字体等样式;2. 推荐通过CSS类统一管理多处相同样式,提升可维护性;3. 中文建议设置Microsoft YaHei等常用字体并提供备选,颜色推荐十六进制值;4. 避免过多内联样式,保持结构与表现分离。 在HTML中,标签常用于对文本的局部进…

    2025年12月23日
    000
  • HTML文本与CSS怎么结合使用_HTML文本与CSS怎么结合实现丰富排版效果

    HTML提供结构,CSS负责样式,二者结合可实现美观布局。1. 内联样式通过style属性直接设置,适用于单元素调整但难复用;2. 内部样式表置于head中,用style标签定义,适合单页统一排版;3. 外部样式表将CSS独立为文件,通过link引入,利于多页共享与维护,推荐使用;4. 关键CSS属…

    2025年12月23日
    300
  • 网站根目录下的神秘HTML文件:识别与管理域名所有权验证文件

    网站根目录下发现的随机命名html文件,通常是用于验证域名或网站所有权的工具。本文将深入探讨这类文件的常见来源、作用及其在google search console等服务中的应用,并提供识别与管理建议,帮助网站管理员理解并妥善处理这些看似“多余”的文件。 1. 这类文件的神秘面纱 在维护或更新一个既…

    2025年12月23日
    000
  • Windows OneDrive同步HTML+CSS项目到多台电脑

    使用OneDrive同步HTML+CSS项目可行,需将项目放入OneDrive文件夹并登录同一账号实现多端同步。应采用英文命名、避免特殊字符,使用相对路径引用资源,如href=”css/style.css”。推荐结构:my-website/下分设css、js、images目录…

    2025年12月23日
    000
  • html代码怎么设置字体_html字体标签与CSS字体样式设置方法

    可通过HTML标签或CSS样式自定义网页文字效果:一、使用标签设置字体名称、大小、颜色;二、利用内联style属性设置font-family、font-size、color等;三、在中用定义内部样式表;四、通过link引入外部CSS文件实现样式分离;五、使用@font-face引入Web字体,确保跨…

    2025年12月23日
    000
  • Windows11 Widgets显示当前HTML使用的CSS文件数

    Windows 11 Widgets 不提供网页技术统计功能,无法显示当前HTML使用的CSS文件数,其面板由系统应用渲染,仅支持通过任务栏或快捷键打开、添加组件、调整布局及个性化设置。 Windows 11 Widgets 功能本身是一个操作系统层面的界面组件,它不直接提供“显示当前HTML使用的…

    2025年12月23日
    000
  • html如何改变字_HTML文字(字体/大小/颜色)修改方法

    推荐使用CSS设置文字样式,通过style属性或样式表定义font-family、font-size和color;2. 可在标签内用style直接设置,或在style标签及外部文件中统一管理;3. 避免使用已废弃的font标签。 在HTML中修改文字的字体、大小和颜色,主要通过内联样式(style属…

    2025年12月23日
    000
  • HTA中VBScript实现动态图像定位教程

    本教程详细讲解如何在HTML应用程序(HTA)中利用VBScript动态控制HTML图像元素的位置。文章将阐述VBScript与DOM(文档对象模型)的交互机制,通过实际代码示例展示如何监听用户输入并实时更新图像的`top`和`left`样式属性,从而实现无需按钮即可响应式调整图像位置的功能。 HT…

    2025年12月23日
    100
  • html如何改字体_HTML字体样式(font-family/size)修改方法

    html如何改字体_HTML字体样式(font-family/size)修改方法html如何改字体_HTML字体样式(font-family/size)修改方法html如何改字体_HTML字体样式(font-family/size)修改方法html如何改字体_HTML字体样式(font-family/size)修改方法

    通过CSS的font-family和font-size属性可设置网页字体类型与大小,示例包括使用Arial、微软雅黑等字体及px、em等单位,建议结合多个字体备选并用引号包裹中文字体名,推荐在style标签中全局统一设置以保持页面风格一致。 在HTML中修改字体样式,主要通过CSS的font-fam…

    2025年12月23日 用户投稿
    000
  • html如何加入ppt_HTML内容嵌入PowerPoint演示文稿方法

    可通过图片、插件、PDF或OneNote四种方式在PPT中嵌入HTML内容。1. 转为图片插入兼容性好但不可编辑;2. 用Web Viewer插件嵌入实时网页需联网且依赖插件;3. 导出为PDF再插入可保留排版与链接;4. 借助OneNote中转格式还原度高,支持富文本。根据需求选择合适方案即可实现…

    2025年12月23日
    000
  • 网站根目录中神秘HTML文件的真相:域名所有权验证指南

    在网站根目录发现一个随机命名且内容单一的`.html`文件,这通常是用于证明域名所有权的验证文件。这类文件由google search console、bing webmaster tools等服务在网站设置时要求创建,以确认您对域名的控制权,是网站管理中的常见实践。 理解网站根目录下的未知HTML…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信