使用LangChain和OpenAI API进行文档分析的方法

程序猿 • 2025年11月8日 02:59:27 • 用户投稿 • 阅读 0

译者需要改写的内容是：|需要改写的内容是：布加迪

审校需要改写的内容是：|需要改写的内容是：重楼

从文档和数据中提取洞察力对于您做出明智的决策至关重要。然而在处理敏感信息时，会出现隐私问题。结合使用LangChain与OpenAI需要改写的内容是：API，您就可以分析本地文档，无需上传到网上。

它们通过将数据保存在本地、使用嵌入和向量化进行分析以及在您的环境中执行进程来做到这一点。OpenAI不使用客户通过其API提交的数据来训练模型或改进服务。

搭建环境

创建一个新的Python虚拟环境，这将确保没有库版本冲突。然后运行以下终端命令来安装所需的库。

pip需要改写的内容是：install需要改写的内容是：langchain需要改写的内容是：openai需要改写的内容是：tiktoken需要改写的内容是：faiss-cpu需要改写的内容是：pypdf

下面详细说明您将如何使用每个库：

LangChain：您将用它来创建和管理用于文本处理和分析的语言链。它将提供用于文档加载、文本分割、嵌入和向量存储的模块。OpenAI：您将用它来运行查询，并从语言模型获取结果。tiktoken：您将用它来计算给定文本中token（文本单位）的数量。这是为了在与基于您使用的token数量收费的OpenAI需要改写的内容是：API交互时跟踪token计数。FAISS：您将用它来创建和管理向量存储，允许基于嵌入快速检索相似的向量。PyPDF：这个库从PDF提取文本。它有助于加载PDF文件并提取其文本，供进一步处理。

安装完所有库之后，您的环境现已准备就绪。

获得OpenAI需要改写的内容是：API密钥

当您向OpenAI需要改写的内容是：API发出请求时，需要添加API密钥作为请求的一部分。该密钥允许API提供者验证请求是否来自合法来源，以及您是否拥有访问其功能所需的权限。

为了获得OpenAI需要改写的内容是：API密钥，进入到OpenAI平台。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

然后在右上方的帐户个人资料下，点击“查看API密钥”，将出现API密钥页面。

点击“创建新的密钥”按钮。为密钥命名，点击“创建新密钥”。OpenAI将生成API密钥，您应该复制并保存在安全的地方。出于安全原因，您将无法通过OpenAI帐户再次查看它。如果丢失了该密钥，需要生成新的密钥。

导入所需的库

为了能够使用安装在虚拟环境中的库，您需要导入它们。

from需要改写的内容是：langchain.document_loaders需要改写的内容是：import需要改写的内容是：PyPDFLoader,需要改写的内容是：TextLoaderfrom需要改写的内容是：langchain.text_splitter需要改写的内容是：import需要改写的内容是：CharacterTextSplitterfrom需要改写的内容是：langchain.embeddings.openai需要改写的内容是：import需要改写的内容是：OpenAIEmbeddingsfrom需要改写的内容是：langchain.vectorstores需要改写的内容是：import需要改写的内容是：FAISSfrom需要改写的内容是：langchain.chains需要改写的内容是：import需要改写的内容是：RetrievalQAfrom需要改写的内容是：langchain.llms需要改写的内容是：import需要改写的内容是：OpenAI

注意，您从LangChain导入了依赖项库，这让您可以使用LangChain框架的特定功能。

加载用于分析的文档

先创建一个含有API密钥的变量。稍后，您将在代码中使用该变量用于身份验证。

#需要改写的内容是：Hardcoded需要改写的内容是：API需要改写的内容是：keyopenai_api_key需要改写的内容是：=需要改写的内容是："Your需要改写的内容是：API需要改写的内容是：key"

如果您打算与第三方共享您的代码，不建议对API密钥进行硬编码。对于打算分发的生产级代码，则改而使用环境变量。

接下来，创建一个加载文档的函数。该函数应该加载PDF或文本文件。如果文档既不是PDF文件，也不是文本文件，该函数会抛出值错误。

def需要改写的内容是：load_document(filename):if需要改写的内容是：filename.endswith(".pdf"):需要改写的内容是：loader需要改写的内容是：=需要改写的内容是：PyPDFLoader(filename)需要改写的内容是：documents需要改写的内容是：=需要改写的内容是：loader.load()需要改写的内容是：elif需要改写的内容是：filename.endswith(".txt"):需要改写的内容是：loader需要改写的内容是：=需要改写的内容是：TextLoader(filename)需要改写的内容是：documents需要改写的内容是：=需要改写的内容是：loader.load()需要改写的内容是：else:需要改写的内容是：raise需要改写的内容是：ValueError("Invalid需要改写的内容是：file需要改写的内容是：type")

加载文档后，创建一个CharacterTextSplitter。该分割器将基于字符将已加载的文档分隔成更小的块。

需要改写的内容是：

巧文书

巧文书是一款AI写标书、AI写方案的产品。通过自研的先进AI大模型，精准解析招标文件，智能生成投标内容。

61 查看详情

text_splitter需要改写的内容是：=需要改写的内容是：CharacterTextSplitter(chunk_size=1000,需要改写的内容是：需要改写的内容是：chunk_overlap=30,需要改写的内容是：separator="n")需要改写的内容是：return需要改写的内容是：text_splitter.split_documents(documents=documents)

分割文档可确保块的大小易于管理，仍与一些重叠的上下文相连接。这对于文本分析和信息检索之类的任务非常有用。

查询文档

您需要一种方法来查询上传的文档，以便从中获得洞察力。为此，创建一个以查询字符串和检索器作为输入的函数。然后，它使用检索器和OpenAI语言模型的实例创建一个RetrievalQA实例。

def需要改写的内容是：query_pdf(query,需要改写的内容是：retriever):qa需要改写的内容是：=需要改写的内容是：RetrievalQA.from_chain_type(llm=OpenAI(openai_api_key=openai_api_key),需要改写的内容是：chain_type="stuff",需要改写的内容是：retriever=retriever)result需要改写的内容是：=需要改写的内容是：qa.run(query)需要改写的内容是：print(result)

该函数使用创建的QA实例来运行查询并输出结果。

创建主函数

主函数将控制整个程序流。它将接受用户输入的文档文件名并加载该文档。然后为文本嵌入创建OpenAIEmbeddings实例，并基于已加载的文档和文本嵌入构造一个向量存储。将该向量存储保存到本地文件。

接下来，从本地文件加载持久的向量存储。然后输入一个循环，用户可以在其中输入查询。主函数将这些查询与持久化向量存储的检索器一起传递给query_pdf函数。循环将继续，直到用户输入“exit”。

def需要改写的内容是：main():需要改写的内容是：filename需要改写的内容是：=需要改写的内容是：input("Enter需要改写的内容是：the需要改写的内容是：name需要改写的内容是：of需要改写的内容是：the需要改写的内容是：document需要改写的内容是：(.pdf需要改写的内容是：or需要改写的内容是：.txt):n")docs需要改写的内容是：=需要改写的内容是：load_document(filename)embeddings需要改写的内容是：=需要改写的内容是：OpenAIEmbeddings(openai_api_key=openai_api_key)vectorstore需要改写的内容是：=需要改写的内容是：FAISS.from_documents(docs,需要改写的内容是：embeddings)需要改写的内容是：vectorstore.save_local("faiss_index_constitution")persisted_vectorstore需要改写的内容是：=需要改写的内容是：FAISS.load_local("faiss_index_constitution",需要改写的内容是：embeddings)query需要改写的内容是：=需要改写的内容是：input("Type需要改写的内容是：in需要改写的内容是：your需要改写的内容是：query需要改写的内容是：(type需要改写的内容是：'exit'需要改写的内容是：to需要改写的内容是：quit):n")while需要改写的内容是：query需要改写的内容是：!=需要改写的内容是："exit":query_pdf(query,需要改写的内容是：persisted_vectorstore.as_retriever())query需要改写的内容是：=需要改写的内容是：input("Type需要改写的内容是：in需要改写的内容是：your需要改写的内容是：query需要改写的内容是：(type需要改写的内容是：'exit'需要改写的内容是：to需要改写的内容是：quit):n")

嵌入捕获词之间的语义关系。向量是一种可以表示一段文本的形式。

这段代码使用OpenAIEmbeddings生成的嵌入将文档中的文本数据转换成向量。然后使用FAISS对这些向量进行索引，以便高效地检索和比较相似的向量。这便于对上传的文档进行分析。

最后，如果用户独立运行程序，使用__name__需要改写的内容是：==需要改写的内容是：”__main__”构造函数来调用主函数：

if需要改写的内容是：__name__需要改写的内容是：==需要改写的内容是："__main__":需要改写的内容是：main()

这个应用程序是一个命令行应用程序。作为一个扩展，您可以使用Streamlit为该应用程序添加Web界面。

执行文件分析

要执行文档分析，将所要分析的文档存储在项目所在的同一个文件夹中，然后运行该程序。它将询问所要分析的文档的名称。输入全名，然后输入查询，以便程序分析。

以下截图展示了对PDF进行分析的结果

下面的输出显示了分析含有源代码的文本文件的结果。

确保所要分析的文件是PDF或文本格式。如果您的文档采用其他格式，可以使用在线工具将它们转换成PDF格式。

可以在GitHub代码库中获取完整的源代码：https://github.com/makeuseofcode/Document-analysis-using-LangChain-and-OpenAI

原文标题：How需要改写的内容是：to需要改写的内容是：Analyze需要改写的内容是：Documents需要改写的内容是：With需要改写的内容是：LangChain需要改写的内容是：and需要改写的内容是：the需要改写的内容是：OpenAI需要改写的内容是：API，作者：Denis需要改写的内容是：Kuria

需要改写的内容是：

以上就是使用LangChain和OpenAI API进行文档分析的方法的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/459690.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

装修设计APP开发:零基础也能自己开发制作家居装修手机APP

上一篇 2025年11月8日 02:59:25

崩坏星穹铁道3.2缇宝配队推荐

下一篇 2025年11月8日 02:59:28

用户投稿

实时音频转音素实现2D角色唇语同步教程

本文详细介绍了如何将实时麦克风音频转换为音素，以实现2D角色唇语同步。核心方法是分两步走：首先利用语音转文本（STT）服务（如Python SpeechRecognition库）将实时音频转换为单词，然后使用CMU Dict库将这些单词映射为对应的音素。文章还将探讨如何进一步将CMU音素转换为国际音…

程序猿
2026年5月10日
0000
用户投稿

ChromaDB向量嵌入的有效持久化策略

本文详细介绍了如何利用langchain中chromadb的`persist_directory`功能，高效地持久化存储向量嵌入。通过将生成的嵌入数据保存到本地磁盘，可以有效避免重复计算，显著提升工作流程效率。教程将涵盖持久化chromadb实例的创建与后续加载的完整过程。在处理大规模文本数据并生…

程序猿
2026年5月10日
0000
用户投稿

typescript用来干嘛_typescript的作用

TypeScript 是一种用于构建大型复杂应用程序的开源编程语言，它扩展了 JavaScript 的功能，具有以下作用：类型系统：编译时检查类型错误，提高代码可靠性。面向对象编程特性：支持类、接口、抽象类，增强代码组织性和维护性。模块系统：分解程序为可重用模块，提升可维护性和可扩展性。全面的类型推…

程序猿
2026年5月10日
0000
用户投稿

什么是Worldcoin (WLD)？是AI革命还是隐私噩梦？WLD未来前景深度剖析

Worldcoin的核心是通过Orb虹膜扫描实现人格证明，构建全球身份与金融网络。用户验证后获World ID并领取WLD代币，旨在推动Web3发展及未来全民基本收入。其机遇在于可能成为数字身份标准，但面临虹膜数据隐私、中心化控制、监管限制和伦理争议等挑战，发展前景取决于技术与伦理的平衡。 Worl…

程序猿
2026年5月10日
0000
用户投稿

从OpenAI API响应中高效提取文本内容

本文详细指导如何从openai gpt系列模型的api json响应中准确提取所需的文本内容。我们将重点介绍如何利用json解析器处理api返回的结构化数据，避免直接字符串操作的常见错误，并通过具体代码示例演示如何访问choices数组中的生成文本，并探讨处理多条生成结果的方法，确保开发者能高效、稳…

程序猿
2025年12月23日
0000
用户投稿

从OpenAI API响应中高效提取生成文本

本文旨在指导开发者如何正确解析OpenAI API返回的JSON格式响应，并从中提取所需的生成文本内容。通过详细的步骤和代码示例，我们将展示如何使用`JSON.parse()`方法处理API响应，并精确访问`choices[0].text`属性以获取核心文本输出，同时探讨处理多条生成结果的方法及相关…

程序猿
2025年12月23日
0000
用户投稿

如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

使用HTML构建标签结构，CSS3添加旋转与过渡效果，JavaScript生成随机HSL颜色并设置字体大小，实现动态交互的标签云组件。要在网页中实现一个动态的标签云组件，结合 HTML、CSS3 变换和随机颜色生成算法，可以按照以下步骤操作。这个组件不仅能提升页面视觉效果，还能通过色彩和旋转增加交…

程序猿
2025年12月23日
0000
用户投稿

如何在Go Gin应用中集成前端JavaScript模块（如Sentry）

本文探讨了在Go Gin框架下，通过HTML模板服务前端页面时，如何有效集成JavaScript模块（如Sentry）。针对浏览器不直接支持Node.js模块导入语法的问题，文章详细阐述了利用CDN引入Sentry SDK的解决方案，并提供了具体的代码示例，帮助开发者实现前端错误监控功能，避免了复杂…

程序猿
2025年12月23日
1000
用户投稿

html官网浏览入口_html网站设计免费平台

html官网浏览入口在https://www.codepen.io，该平台支持实时预览代码、创建Pen项目、Fork开源示例，可添加外部资源，具备点赞评论收藏等社区互动功能，设有挑战活动与作品集分类，开放API接口，界面简洁适合初学者，在线编写无需配置环境，支持多种预处理器和响应式测试。 html官…

程序猿
2025年12月23日
0000
用户投稿

html如何修改日期样式

在html中，可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式，只需要用该选择器选中元素，在设置具体样式即可，具体语法为“::-webkit-datetime-edit{属性:属性值}”。本教程操作环境：windows7系统、CSS3&&HTML…

程序猿
2025年12月21日
1000
用户投稿

单选框的type属性值为什么

单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型；值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。本教程操作环境：windows7系统、HTML5版、Dell G3电脑。在HTML中，…

程序猿
2025年12月21日
0000
用户投稿

HTML中type是什么意思

在HTML中，type是类型的意思，是一个标签属性，主要用于定义标签元素的类型或文档（脚本）的MIME类型；例在input标签中type属性可以规定input元素的类型，在script标签中type属性可以规定脚本的MIME类型。本教程操作环境：windows7系统、html5版、Dell G3电…

程序猿
2025年12月21日
0000
HTML中ul标签如何去掉点？HTML无序列表的样式实例解析

本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉，还有关于html的无序列表ul标签的样式解释，给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的：大家应该都使用过ul无序列表标签，ul…

程序猿
2025年12月21日 • 用户投稿
0000
html中的ol标签如何去掉标号呢？标签的使用方法总结

本篇文章介绍了html的ol标签是怎么去掉序号标号的，这里还有代码的详细解释，还有介绍了关于html ol有序列表标签如何更改序号，下文介绍了三种序号，大家也可以自己去想填写怎样的序号。现在来看这篇文章吧一、我们先看看html中的ol标签是如何去掉标号的呢：我们都知道html的ol标签是个有序列…

程序猿
2025年12月21日 • 用户投稿
0000
用户投稿

HTML ul标签的什么意思？HTML ul标签的作用详解

本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法，还有关于html ul标签的解释，包含li标签的还有type属性对ul标签的使用情况，好了，下面大家一起来看文章吧首先让我们先来解释一下HTML ul标签的意思： ul标签定义的是表格当中无序列表，表格当中的无序列表都是在标签之中…

程序猿
2025年12月21日
0000
用户投稿

javascript框架和库是什么_如何选择React、Vue或Angular？

JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构；React是UI组件库，生态灵活但需自行整合工具；Vue渐进式易上手，兼顾原型与工程化；Angular是全功能TypeScript框架，适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合，用来简化前端开发——…

程序猿
2025年12月21日
0000
用户投稿

React应用生产环境环境变量配置深度指南

本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题，深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码，指导开发者正确配置和使用环境变量，解决api调用层面的`null`响应问题，确保应用在生产环境下的稳定运行。在React应用开发中，环境变量（如API密钥…

程序猿
2025年12月21日
0000
用户投稿

JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

JSDoc是一种JavaScript结构化注释规范，通过@param、@returns等标签描述代码元素，并借助工具生成HTML文档，结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解（Annotation）像Java那样的语法，但通过约定的注释格式和配套工具，可…

程序猿
2025年12月21日
0000
用户投稿

JS注解怎么标注联合类型_ JS联合类型的注解书写与使用技巧

在JavaScript中可通过JSDoc使用联合类型注解，如string|number表示多类型支持，结合@param、@typedef等标签提升代码可读性与编辑器提示，适用于函数参数、返回值等场景。在JavaScript中，虽然原生不支持类型注解，但在使用JSDoc配合现代编辑器（如VS Cod…

程序猿
2025年12月21日
0000
用户投稿

解决OpenAI微调模型”模型不存在”错误：API端点选择指南

当使用openai微调模型时，若遇到“the model `xxxxx` does not exist”错误，通常是由于选择了错误的api端点。本文将详细阐述如何根据微调模型的类型（gpt-3.5 turbo或旧版gpt-3模型如babbage/davinci）正确选择chat completion…

程序猿
2025年12月20日
0000