基于LangChain的CSV数据检索增强生成（RAG）问答系统构建指南

程序猿 • 2025年12月14日 23:21:31 • 好文分享 • 阅读 0

本教程详细介绍了如何利用langchain框架构建一个基于csv文件的检索增强生成（rag）问答系统。文章涵盖了从csv数据加载、文本切分、嵌入生成到faiss向量数据库创建的完整流程。核心内容在于如何将faiss检索器集成到聊天机器人中，使语言模型能够根据用户查询从csv数据中检索相关信息，并结合这些信息生成准确、上下文感知的回答，从而有效解决llm的幻觉问题并增强其知识库。

引言：检索增强生成（RAG）与自定义数据问答

在大型语言模型（LLM）的应用中，一个常见的挑战是如何让模型回答其训练数据之外的特定领域知识。检索增强生成（Retrieval Augmented Generation, RAG）是一种有效的解决方案，它允许LLM在生成答案之前，先从外部知识库中检索相关信息，然后基于这些信息生成更准确、更具上下文感的回答。本教程将指导您如何使用LangChain库，结合FAISS向量数据库和OpenAI API，构建一个能够从CSV文件中提取信息并回答用户问题的应用程序。

1. 数据准备与向量数据库构建

首先，我们需要将CSV文件中的结构化数据转换为LLM可以理解和检索的格式。这通常涉及数据加载、文本切分、生成嵌入（embeddings）以及构建向量数据库。

1.1 数据加载与文本切分

LangChain提供了CSVLoader来方便地加载CSV文件。加载后，为了更好地进行嵌入和检索，我们需要将数据切分成更小的文本块（chunks）。对于CSV文件，如果每行代表一个独立的实体（如本例中的景点），通常可以按行进行切分。

from langchain.vectorstores import FAISSfrom langchain.embeddings import HuggingFaceEmbeddingsfrom langchain.text_splitter import CharacterTextSplitterfrom langchain.document_loaders.csv_loader import CSVLoader# 定义FAISS向量数据库的保存路径DB_FAISS_PATH = "vectorstore/db_faiss"# 加载CSV文件，指定编码和分隔符loader = CSVLoader(file_path="./data/cleanTripLisbon.csv", encoding="utf-8", csv_args={'delimiter': ','})data = loader.load()# 文本切分器，这里假设每行是一个独立的文档，所以使用换行符作为分隔符# 注意：对于更复杂的文本，可能需要更智能的切分策略text_splitter = CharacterTextSplitter(separator='n', chunk_size=1000, chunk_overlap=0)text_chunks = text_splitter.split_documents(data)print(f"原始文档数量: {len(data)}")print(f"切分后文本块数量: {len(text_chunks)}")

1.2 嵌入生成与FAISS向量数据库创建

文本切分后，我们需要将这些文本块转换为数值向量（即嵌入），以便进行相似性搜索。HuggingFaceEmbeddings允许我们使用各种预训练的Transformer模型来生成嵌入。FAISS是一个高效的相似性搜索库，我们将使用它来存储这些嵌入并进行快速检索。

# 初始化HuggingFace嵌入模型# 'sentence-transformers/all-MiniLM-L6-v2' 是一个轻量级且性能良好的模型embeddings = HuggingFaceEmbeddings(model_name='sentence-transformers/all-MiniLM-L6-v2')# 从文本块和嵌入模型创建FAISS向量数据库docsearch = FAISS.from_documents(text_chunks, embeddings)# 将FAISS向量数据库保存到本地，以便后续加载和使用docsearch.save_local(DB_FAISS_PATH)print(f"FAISS向量数据库已创建并保存到: {DB_FAISS_PATH}")

这段代码首先加载CSV数据，将其切分成文档，然后使用预训练的HuggingFace模型生成每个文档块的嵌入。最后，这些嵌入被存储在一个FAISS向量数据库中，并保存到磁盘以备将来使用。

2. 聊天机器人核心逻辑

为了与LLM进行交互，我们通常需要一个封装了API调用和消息历史管理功能的辅助类。

2.1 GPT_Helper 类

GPT_Helper类负责与OpenAI API进行通信，管理对话历史，并获取模型的完成（completion）。

from openai import OpenAIfrom util import local_settings # 假设local_settings包含OPENAI_API_KEYclass GPT_Helper:    def __init__(self, OPENAI_API_KEY: str, system_behavior: str = "", model="gpt-3.5-turbo"):        self.client = OpenAI(api_key=OPENAI_API_KEY)        self.messages = [] # 存储对话历史        self.model = model        if system_behavior:            # 设置系统角色，指导模型的行为            self.messages.append({                "role": "system",                "content": system_behavior            })    def get_completion(self, prompt, temperature=0):        # 将用户提示添加到消息历史        self.messages.append({"role": "user", "content": prompt})        # 调用OpenAI API获取模型响应        completion = self.client.chat.completions.create(            model=self.model,            messages=self.messages,            temperature=temperature,        )        # 将模型的响应添加到消息历史        self.messages.append(            {                "role": "assistant",                "content": completion.choices[0].message.content            }        )        return completion.choices[0].message.content    def reset_messages(self):        """重置对话历史，保留系统行为（如果存在）"""        system_message = None        if self.messages and self.messages[0]["role"] == "system":            system_message = self.messages[0]        self.messages = []        if system_message:            self.messages.append(system_message)

3. 将检索功能集成到聊天机器人中

这是RAG模式的核心：如何让聊天机器人利用向量数据库检索到的信息来增强其生成能力。

3.1 改造 AttractionBot 以支持检索

为了将CSV数据整合到问答流程中，我们需要修改AttractionBot类，使其在生成响应之前，先从docsearch对象中检索相关信息。docsearch.as_retriever()方法可以将FAISS向量数据库转换为一个检索器对象。

from langchain.vectorstores import FAISSfrom langchain.embeddings import HuggingFaceEmbeddings# 假设docsearch已经通过前面的步骤创建并加载# 如果是重新运行，可能需要先加载# embeddings = HuggingFaceEmbeddings(model_name='sentence-transformers/all-MiniLM-L6-v2')# docsearch = FAISS.load_local(DB_FAISS_PATH, embeddings) # 重新加载向量数据库class AttractionBot:    def __init__(self, system_behavior: str, docsearch: FAISS):        self._system_behavior = system_behavior        self._username = None        # 初始化GPT_Helper        self.engine = GPT_Helper(            OPENAI_API_KEY=local_settings.OPENAI_API_KEY,            system_behavior=system_behavior        )        # 将FAISS向量数据库转换为检索器        self.doc_retriever = docsearch.as_retriever()    def set_username(self, username):        self._username = username    def generate_response(self, message: str):        # 包含用户名（如果可用）        user_message = f"{self._username}: {message}" if self._username else message        # 使用检索器获取与用户查询最相关的信息        # retrieve方法返回的是Document对象列表        relevant_docs = self.doc_retriever.retrieve(user_message)        # 将检索到的文档内容组合成一个上下文字符串        # 这是一个关键步骤，将外部知识注入到LLM的输入中        context = "nn".join([doc.page_content for doc in relevant_docs])        # 构建包含检索上下文的完整提示        # 明确告诉LLM基于提供的上下文来回答问题        rag_prompt = f"请根据以下信息回答问题：nn{context}nn用户问题: {user_message}nn回答："        # 使用语言模型生成响应，现在它有了额外的上下文信息        response = self.engine.get_completion(rag_prompt)        return response    def reset(self):        # 重置对话历史        self.engine.reset_messages()        # 如果有其他状态需要重置，也在此处处理    @property    def memory(self):        return self.engine.messages    @property    def system_behavior(self):        return self._system_behavior    @system_behavior.setter    def system_behavior(self, system_config: str):        self._system_behavior = system_config

在上述修改中，我们做了以下关键改动：

在AttractionBot的__init__方法中，接收docsearch对象，并将其转换为self.doc_retriever。在generate_response方法中，首先调用self.doc_retriever.retrieve(user_message)来获取与用户查询最相关的文档。将检索到的文档内容（page_content）拼接成一个context字符串。构造一个新的rag_prompt，将context和原始user_message结合起来，明确指示LLM基于这些信息进行回答。将这个增强后的rag_prompt传递给self.engine.get_completion()。

3.2 实例化与使用

现在，我们可以实例化AttractionBot并开始进行问答。

# 确保在运行此部分之前，已经执行了数据准备和向量数据库构建的代码# 如果是独立运行，需要先加载向量数据库# embeddings = HuggingFaceEmbeddings(model_name='sentence-transformers/all-MiniLM-L6-v2')# docsearch = FAISS.load_local(DB_FAISS_PATH, embeddings)# 定义系统的行为，指导LLM的回答风格和范围system_behavior = "你是一个关于葡萄牙里斯本景点的智能问答机器人，请根据提供的信息回答用户关于景点的问题。"# 实例化AttractionBot，并传入docsearch对象attraction_bot = AttractionBot(system_behavior=system_behavior, docsearch=docsearch)# 设置用户名（可选）attraction_bot.set_username("Alice")# 进行问答query1 = "里斯本有哪些著名的历史景点？"response1 = attraction_bot.generate_response(query1)print(f"用户: {query1}")print(f"机器人: {response1}n")query2 = "告诉我关于贝伦塔的信息。"response2 = attraction_bot.generate_response(query2)print(f"用户: {query2}")print(f"机器人: {response2}n")# 重置对话attraction_bot.reset()query3 = "里斯本的购物区在哪里？"response3 = attraction_bot.generate_response(query3)print(f"用户: {query3}")print(f"机器人: {response3}n")

4. 注意事项与最佳实践

文本切分策略： CharacterTextSplitter是一个基础的切分器。对于更复杂的文档结构，可以考虑使用RecursiveCharacterTextSplitter，它能根据一系列分隔符递归切分，更智能地保留语义完整性。chunk_size和chunk_overlap参数对检索效果有重要影响，需要根据数据特性进行调整。嵌入模型选择： sentence-transformers/all-MiniLM-L6-v2是一个很好的起点，但对于特定领域或语言，可能需要尝试其他模型，如更大的Sentence Transformers模型或OpenAI的text-embedding-ada-002。Prompt工程： 构造RAG提示时，清晰地分隔上下文和用户问题至关重要。明确指示LLM“根据以下信息回答”可以有效引导其行为。检索结果处理： retrieve方法返回的是Document对象列表，通常包含page_content和metadata。metadata可以包含源文件、页码等信息，在某些高级场景下很有用。错误处理与鲁棒性： 在实际应用中，需要考虑当检索不到相关信息时，LLM应该如何响应。可以设置一个回退机制，例如告知用户“我没有找到相关信息”。性能与扩展性： 对于非常大的数据集，FAISS是一个高效的选择。如果数据量达到TB级别，可能需要考虑更专业的向量数据库服务（如Pinecone, Weaviate等）。

总结

通过本教程，我们学习了如何利用LangChain框架，结合FAISS向量数据库和OpenAI API，构建一个基于CSV数据的检索增强生成（RAG）问答系统。这种方法有效地将外部知识库与大型语言模型结合起来，显著提升了LLM在特定领域问答的准确性和可靠性。RAG模式是构建知识密集型AI应用的关键技术之一，为开发者提供了强大的工具来克服LLM的固有局限性。

以上就是基于LangChain的CSV数据检索增强生成（RAG）问答系统构建指南的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1381803.html

ai api调用 app csv csv文件 gpt openai 工具编码

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

使用 Pandas cummax() 维护序列中的历史最大值

上一篇 2025年12月14日 23:21:26

使用Python logging 模块优雅记录Pandas DataFrame

下一篇 2025年12月14日 23:21:33

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
0000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
0000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
0000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
2000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
0000
好文分享

如何用 CSS Paint API 实现倾斜的斑马线间隔圆环？

实现斑马线边框样式：探究 css paint api 本文将探究如何使用 css paint api 实现倾斜的斑马线间隔圆环。问题：给定一个有多个圆圈组成的斑马线图案，如何使用 css 实现倾斜的斑马线间隔圆环？答案：立即学习“前端免费学习笔记（深入）”；使用 css paint api…

程序猿
2025年12月24日
0000
好文分享

如何使用CSS Paint API实现倾斜斑马线间隔圆环边框？

css实现斑马线边框样式想定制一个带有倾斜斑马线间隔圆环的边框？现在使用css paint api，定制任何样式都轻而易举。 css paint api 这是一个新的css特性，允许开发人员创建自定义形状和图案，其中包括斑马线样式。立即学习“前端免费学习笔记（深入）”；实现倾斜斑马线间隔圆环 …

程序猿
2025年12月24日
1000