基于Langchain、ChromaDB和GPT 3.5实现检索增强生成

程序猿 • 2025年11月8日 19:16:36 • 科技 • 阅读 0

译者 | 朱先忠

重楼 | 审校

摘要：在本博客中，我们将了解一种名为检索增强生成（retrieval augmented generation）的提示工程技术，并将基于Langchain、ChromaDB和GPT 3.5的组合来实现这种技术。

动机

随着GPT-3等基于转换器的大数据模型的出现，自然语言处理（NLP）领域取得了重大突破。这些语言模型能够生成类似人类的文本，并已有各种各样的应用程序，如聊天机器人、内容生成和翻译等。然而，当涉及到专业化和特定于客户的信息的企业应用场景时，传统的语言模型可能满足不了要求。另一方面，使用新的语料库对这些模型进行微调可能既昂贵又耗时。为了应对这一挑战，我们可以使用一种名为“检索增强生成”（RAG：Retrieval Augmented Generation）的技术。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在本博客中，我们将探讨这种检索增强生成（RAG）技术是如何工作的，并通过一个实战示例来证明这一技术的有效性。需要说明的是，此实例将使用GPT-3.5 Turbo作为附加语料库对产品手册进行响应。

想象一下，你的任务是开发一个聊天机器人，该机器人可以响应有关特定产品的查询。该产品有自己独特的用户手册，专门针对企业的产品。传统的语言模型，如GPT-3，通常是根据一般数据进行训练的，可能不了解这种特定的产品。另一方面，使用新的语料库对模型进行微调似乎是一种解决方案；然而，此办法会带来相当大的成本和资源需求。

检索增强生成（RAG）简介

检索增强生成（RAG）提供了一种更高效的方法来解决在特定领域生成适当上下文响应的问题。RAG不使用新的语料库对整个语言模型进行微调，而是利用检索的能力按需访问相关信息。通过将检索机制与语言模型相结合，RAG利用外部上下文来增强响应。这个外部上下文可以作为向量嵌入来提供

下面给出了创建本文中应用程序时需要遵循的步骤流程。

阅读Clarett用户手册（PDF格式）并使用1000个令牌的chunk_size进行令牌化。创建这些标记的向量嵌入。我们将使用OpenAIEmbeddings库来创建向量嵌入。将向量嵌入存储在本地。我们将使用简单的ChromaDB作为我们的VectorDB。我们可以使用Pinecone或任何其他更高可用性的生产级的向量数据库VectorDB。用户发出带有查询/问题的提示。这将从VectorDB中进行搜索和检索，以便从VectorDB中获取更多上下文数据。此上下文数据现在将与提示内容一起使用。上下文增强了提示，这通常被称为上下文丰富。提示信息，连同查询/问题和这个增强的上下文，现在被传递给大型语言模型LLM。至此，LLM基于此上下文进行响应。

需要说明的是，在本示例中，我们将使用Focusrite Clarett用户手册作为附加语料库。Focusrite Clarett是一个简单的USB音频接口，用于录制和播放音频。您可以从链接https://fael-downloads-prod.focusrite.com/customer/prod/downloads/Clarett%208Pre%20USB%20User%20Guide%20V2%20English%20-%20EN.pdf处下载使用手册。

实战演练

设置虚拟环境

让我们设置一个虚拟环境来把我们的实现案例封装起来，以避免系统中可能出现的任何版本/库/依赖性冲突。现在，我们执行以下命令来创建一个新的Python虚拟环境：

pip install virtualenvpython3 -m venv ./venvsource venv/bin/activate

创建OpenAI密钥

接下来，我们将需要一个OpenAI密钥来访问GPT。让我们创建一个OpenAI密钥。您可以通过在链接https://platform.openai.com/apps处注册OpenAI来免费创建OpenAIKey。

注册后，登录并选择API选项，如屏幕截图所示（时间原因所致，当您打开该屏幕设计时可能会与我当前拍摄屏幕截图有所变化）。

然后，转到您的帐户设置并选择“查看API密钥（View API Keys）”：

然后，选择“创建新密钥（Create new secret key）”，你会看到一个弹出窗口，如下图所示。你需要提供一个名称，这将会生成一个密钥。

该操作将生成一个唯一的密钥，您应该将其复制到剪贴板并存储在安全的地方。

接下来，让我们编写Python代码来实现上面流程图中显示的所有步骤。

GPT Detector

在线检查文本是否由GPT-3或ChatGPT生成

24 查看详情

安装依赖库

首先，让我们安装我们需要的各种依赖项。我们将使用以下库：

Lanchain：一个开发LLM应用程序的框架。ChromaDB：这是用于持久化向量嵌入的VectorDB。unstructured：用于预处理Word/PDF文档。Tiktoken：Tokenizer框架pypdf：阅读和处理PDF文档的框架openai：访问openai的框架

pip install langchainpip install unstructuredpip install pypdfpip install tiktokenpip install chromadbpip install openai

一旦成功安装了这些依赖项，请创建一个环境变量来存储在最后一步中创建的OpenAI密钥。

export OPENAI_API_KEY=

接下来，让我们开始编程。

从用户手册PDF创建向量嵌入并将其存储在ChromaDB中

在下面的代码中，我们会引入所有需要使用的依赖库和函数

import osimport openaiimport tiktokenimport chromadbfrom langchain.document_loaders import OnlinePDFLoader, UnstructuredPDFLoader, PyPDFLoaderfrom langchain.text_splitter import TokenTextSplitterfrom langchain.memory import ConversationBufferMemoryfrom langchain.embeddings.openai import OpenAIEmbeddingsfrom langchain.vectorstores import Chromafrom langchain.llms import OpenAIfrom langchain.chains import ConversationalRetrievalChain

在下面的代码中，阅读PDF，将文档标记化并拆分为标记。

loader = PyPDFLoader("Clarett.pdf")pdfData = loader.load()text_splitter = TokenTextSplitter(chunk_size=1000, chunk_overlap=0)splitData = text_splitter.split_documents(pdfData)

在下面的代码中，我们将创建一个色度集合，一个用于存储色度数据库的本地目录。然后，我们创建一个向量嵌入并将其存储在ChromaDB数据库中。

collection_name = "clarett_collection"local_directory = "clarett_vect_embedding"persist_directory = os.path.join(os.getcwd(), local_directory)openai_key=os.environ.get('OPENAI_API_KEY')embeddings = OpenAIEmbeddings(openai_api_key=openai_key)vectDB = Chroma.from_documents(splitData, embeddings, collection_name=collection_name, persist_directory=persist_directory )vectDB.persist()

执行此代码后，您应该会看到创建了一个存储向量嵌入的文件夹。

现在，我们将向量嵌入存储在ChromaDB中。下面，让我们使用LangChain中的ConversationalRetrievalChain API来启动聊天历史记录组件。我们将传递由GPT 3.5 Turbo启动的OpenAI对象和我们创建的VectorDB。我们将传递ConversationBufferMemory，它用于存储消息。

memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)chatQA = ConversationalRetrievalChain.from_llm( OpenAI(openai_api_key=openai_key, temperature=0, model_name="gpt-3.5-turbo"),  vectDB.as_retriever(),  memory=memory)

既然我们已经初始化了会话检索链，那么接下来我们就可以使用它进行聊天/问答了。在下面的代码中，我们接受用户输入（问题），直到用户键入“done”。然后，我们将问题传递给LLM以获得回复并打印出来。

chat_history = []qry = ""while qry != 'done': qry = input('Question: ') if qry != exit: response = chatQA({"question": qry, "chat_history": chat_history}) print(response["answer"])

这是输出的屏幕截图。

小结

正如你从本文中所看到的，检索增强生成是一项伟大的技术，它将GPT-3等语言模型的优势与信息检索的能力相结合。通过使用特定于上下文的信息丰富输入，检索增强生成使语言模型能够生成更准确和与上下文相关的响应。在微调可能不实用的企业应用场景中，检索增强生成提供了一种高效、经济高效的解决方案，可以与用户进行量身定制、知情的交互。

译者介绍

朱先忠是51CTO社区的编辑，也是51CTO专家博客和讲师。他还是潍坊一所高校的计算机教师，是自由编程界的老兵

原文标题：Prompt Engineering: Retrieval Augmented Generation(RAG)，作者：A B Vijay Kumar

以上就是基于Langchain、ChromaDB和GPT 3.5实现检索增强生成的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/498620.html

langchain tome 大数据模型检索增强生成自然语言处理

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

人工智能的数字盾牌：增强基础设施网络安全策略

上一篇 2025年11月8日 19:16:00

升级版的“动态机械臂边拖”：石头自清洁扫拖机器人 P10 Pro 图赏

下一篇 2025年11月8日 19:20:47

好文分享

JavaScript事件处理中动态冠词“a”/“an”的正确判断方法

本教程探讨了在javascript事件处理中，如何根据html标签名称的首字母动态选择正确的冠词“a”或“an”。针对常见的循环判断逻辑陷阱，文章提供了一种简洁高效的解决方案，利用`string.prototype.substring()`和`array.prototype.includes()`方…

程序猿
2025年12月23日
0000
好文分享

HTML5在线如何添加语音识别功能 HTML5在线智能交互的技术要点

答案：HTML5通过Web Speech API实现语音识别，需创建SpeechRecognition实例并处理兼容性问题。设置语言、开启实时反馈、绑定事件并控制录音流程可提升体验。结合NLP服务解析语义，并用SpeechSynthesis合成回复，形成智能交互闭环。注意HTTPS部署、权限申请时机…

程序猿
2025年12月23日
1000
好文分享

使用 R 提取新闻文章中的有效文本

本文介绍如何使用 R 语言提取网页中的有效文本内容，去除无关的 HTML 标签、特殊字符和非文本信息。通过结合 `htm2txt`、`quanteda` 和 `qdapDictionaries` 等 R 包，实现从网页抓取文本并过滤掉非英文单词，从而获得更干净、更易于分析的文章内容。在进行文本分析…

程序猿
2025年12月23日
0000
好文分享

使用R语言从网页文章中提取并清洗文本教程

本教程旨在解决使用r语言从网页文章中提取文本时遇到的“噪音”问题。我们将介绍如何利用`htm2txt`包进行初步文本抓取，并结合`quanteda`和`qdapdictionaries`包，通过字典过滤的方法，有效去除无关字符和非标准词汇，从而获得更纯净、有意义的文章内容。文章将详细阐述从网页抓取到…

程序猿
2025年12月23日
0000
好文分享

使用R语言提取新闻文章中的有效文本

本文介绍如何使用R语言从网页中提取有效的新闻文章文本。通过结合`htm2txt`、`quanteda`和`qdapDictionaries`等包，我们可以去除HTML标签、标点符号和数字，并筛选出存在于常用英语词典中的词汇，从而获得更干净、更具可读性的文本内容。从网页抓取文本数据是数据分析和自然语…

程序猿
2025年12月23日
0000
好文分享

HTML数据如何用于商业分析 HTML数据分析的商业应用场景

HTML数据虽非结构化，但蕴含丰富商业信息，通过解析可提取价格、内容、用户行为等关键数据，用于监控竞品、舆情分析、优化转化及洞察人才市场，实现商业决策支持。 HTML数据本身并不是传统意义上的结构化数据，但它承载了大量可提取的商业信息。通过解析和处理网页中的HTML内容，企业可以获取市场动态、用户行…

程序猿
2025年12月23日
0000
好文分享

HTML数据怎样进行情感分析 HTML数据情感挖掘的实现路径

答案是：从HTML中提取有效文本并进行情感分析需先清理标签获取正文，再经文本预处理、分词与去噪后，应用词典、机器学习或深度学习模型判断情感倾向，最终整合结果并可视化，实现舆情监控与评价分析。对HTML数据进行情感分析，核心在于从网页内容中提取有效文本，并在此基础上应用自然语言处理技术判断情感倾向。…

程序猿
2025年12月23日
0000
好文分享

HTML5 section怎么用_HTML5内容分区标签应用场景说明

在HTML5中，标签用于定义文档中具有明确主题的独立内容区块，需包含标题以体现其结构性与语义性，常用于文章章节、产品模块等场景，区别于无语义的和可独立分发的。在HTML5中，section 标签用于定义文档中的一个独立内容区块。它不是简单的容器，而是有语义的结构化标签，表示文档中一个主题性的分区，…

程序猿
2025年12月23日
0000
好文分享

javascript如何实现自然语言处理？_javascript的NLP库有哪些选择？

Natural 是一个轻量级 JavaScript NLP 库，提供分词、词干提取、文本分类、相似度测量和拼写检查等基础功能，适用于简单文本处理任务；compromise 则是无依赖、极简的语法解析库，支持中英文，适合浏览器环境。 JavaScript 本身不内置自然语言处理（NLP）能力，但可通过…

程序猿
2025年12月21日
0000
好文分享

使用正则表达式灵活解析无序命令参数

本文详细介绍了如何利用正则表达式中的正向先行断言（positive lookahead）来解决解析包含多个可选且顺序不固定的命令参数的挑战。通过具体示例，展示了如何构建一个灵活的正则表达式，以准确提取如发送时间、持续时长等关键信息，无论它们在输入字符串中出现的顺序如何。在命令行工具或自然语言处理中…

程序猿
2025年12月21日
0000
好文分享

如何利用JavaScript进行自然语言处理的基础操作？

JavaScript可通过正则清洗文本、split或第三方库分词，结合词频统计、停用词过滤和情感词典实现基础NLP任务，适用于前端轻量级场景。 JavaScript虽然不是自然语言处理（NLP）的主流语言，但借助现代浏览器和Node.js生态，也能完成不少基础NLP操作。以下是一些常见任务及实现方式…

程序猿
2025年12月21日
0000
好文分享

JavaScript中实现词干提取：识别单词基础形式与应用

本文旨在探讨如何在javascript中实现词干提取，以识别单词的不同形态并将其归结为同一基础形式。我们将介绍porter和lancaster等主流词干提取算法，并提供相应的javascript库，帮助开发者构建能够智能匹配单词变体的应用，例如文本高亮或翻译系统，同时强调选择合适算法的重要性。在文…

程序猿
2025年12月21日
1000
好文分享

JavaScript中实现词干提取：识别词语基础形态与应用实践

本文深入探讨了如何在javascript中实现词干提取，以识别词语的各种形态并匹配其基础形式。针对用户输入词语后，需高亮显示其所有变体的需求，文章介绍了porter和lancaster等主流词干提取算法及其在javascript中的实现库。同时，探讨了算法选择、多语言支持的局限性，并提供了相关学习资…

程序猿
2025年12月21日
0000
好文分享

JavaScript中词干提取的实现与应用：识别词语基础形式

本文探讨了在javascript应用中识别词语基础形式（词干）的方法，以实现对不同词形（如’eat’, ‘eats’, ‘eating’, ‘ate’）的统一检测和高亮。核心解决方案是利用词干提取算法，特…

程序猿
2025年12月21日
0000
好文分享

LangChain HNSWLib 向量存储机制与数据持久化指南

本文详细解析langchain中hnswlib向量存储的工作原理，明确其作为内存存储的特性，指出数据实际存储在项目部署的服务器上，而非langchain官方服务器。同时，文章将指导如何通过save_local()方法将内存中的向量数据持久化到本地文件，确保数据安全与可靠性，并探讨在实际应用中的注意事…

程序猿
2025年12月20日
0000
好文分享

怎样使用JavaScript进行自然语言处理的基础操作？

JavaScript可通过原生方法和轻量库实现文本清洗、分词、词频统计、关键词提取及相似度计算，适用于浏览器端或Node.js环境的基础NLP任务。 JavaScript虽然不是自然语言处理（NLP）的主流语言，但在浏览器端或Node.js环境中，也能完成一些基础的文本处理任务。通过原生方法和轻量库…

程序猿
2025年12月20日
0000
好文分享

如何利用机器学习库（如TensorFlow.js）增强Web应用智能？

借助TensorFlow.js可在浏览器端运行机器学习模型，提升响应速度与隐私保护。通过加载MobileNet等轻量模型并利用tf.browser.fromPixels()处理视频帧，可实现网页端实时图像识别，适用于教育类应用的植物图片识别等场景。在自然语言处理方面，采用轻量化BERT模型结合余弦相…

程序猿
2025年12月20日
0000
好文分享

C++初学者如何实现简易问答程序

实现C++简易问答程序需使用map存储问题与答案，通过getline读取输入，利用find查找匹配并输出结果，支持从文件加载数据以提高可维护性。实现一个C++简易问答程序，核心在于理解输入输出流、条件判断和循环控制。这并不是什么高深的技术，但却是构建更复杂程序的基础。解决方案首先，你需要一个存储…

程序猿
2025年12月18日
0000
好文分享

如何使用C++进行自然语言处理和文本分析？

使用 c++++ 进行自然语言处理涉及安装 boost.regex、icu 和 pugixml 库。文章详细介绍了词干分析器的创建过程，它可以将单词简化为根词，以及词袋模型的创建，它将文本表示为单词频率向量。演示使用分词、词干化和词袋模型来分析文本，输出分词后的单词、词干和词频。使用 C++ 进行…

程序猿
2025年12月18日
0000
好文分享

如何利用C++进行高性能的自然语言处理和智能对话？

如何利用C++进行高性能的自然语言处理和智能对话？引言:自然语言处理（NLP）和智能对话是目前人工智能领域的研究热点，广泛应用于机器翻译、文本分析、智能客服等领域。本文将介绍如何利用C++进行高性能的自然语言处理和智能对话，并提供代码示例。一、词法分析1.分词工具对文本进行切词是自然语言处理的第…

程序猿
2025年12月17日
0000