
本文档介绍了如何使用 Langchain 将 DocumentDB 作为向量存储。由于 DocumentDB 的向量搜索查询 API 与 MongoDB 不同,因此直接使用 MongoDB 的集成方式可能会遇到问题。本文将介绍如何使用 Langchain 提供的 DocumentDB 向量存储集成,并提供示例代码和注意事项,帮助你成功地将 DocumentDB 作为向量存储使用。
Langchain 与 DocumentDB 向量存储集成
DocumentDB 最近发布了向量搜索功能。虽然 DocumentDB 与 MongoDB 兼容,但其向量搜索查询 API 与 MongoDB 不同。因此,直接使用为 MongoDB Atlas 设计的代码可能无法正常工作。Langchain 现在直接支持 DocumentDB 作为向量存储,从而解决了这个问题。
安装必要的库
首先,确保安装了 Langchain 和 DocumentDB 相关的库。可以使用 pip 进行安装:
pip install langchain pymongo
连接到 DocumentDB
连接到 DocumentDB 数据库,你需要提供连接字符串。确保连接字符串包含正确的凭据和数据库信息。
from pymongo import MongoClient# 替换为你的 DocumentDB 连接字符串CONNECTION_STRING = "mongodb://your_username:your_password@your_documentdb_cluster.us-east-1.docdb.amazonaws.com:27017/?replicaSet=rs0&readPreference=secondaryPreferred"client = MongoClient(CONNECTION_STRING)db = client["your_database_name"] # 替换为你的数据库名称collection = db["your_collection_name"] # 替换为你的集合名称
使用 Langchain 创建 DocumentDB 向量存储
接下来,使用 Langchain 的 DocumentDB 类创建向量存储。首先,你需要准备好文档和嵌入模型。
from langchain.document_loaders import TextLoaderfrom langchain.embeddings import OpenAIEmbeddings # 你可以使用任何 Langchain 支持的嵌入模型from langchain.vectorstores import DocumentDBfrom langchain.text_splitter import CharacterTextSplitter# 加载文档loader = TextLoader("your_document.txt") # 替换为你的文档路径documents = loader.load()# 分割文档text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)docs = text_splitter.split_documents(documents)# 初始化嵌入模型embeddings = OpenAIEmbeddings() # 需要 OpenAI API 密钥# 创建 DocumentDB 向量存储vector_store = DocumentDB.from_documents( docs, embeddings, collection=collection,)
代码解释:
LangChain
一个开源框架,用于构建基于大型语言模型(LLM)的应用程序。
53 查看详情
TextLoader 用于加载文本文件。你可以根据你的文档类型选择不同的加载器。CharacterTextSplitter 用于将文档分割成更小的块,以便更好地进行向量化。OpenAIEmbeddings 用于生成文档的嵌入向量。你需要提供 OpenAI API 密钥。你可以选择其他 Langchain 支持的嵌入模型,例如 CohereEmbeddings 或 HuggingFaceEmbeddings。DocumentDB.from_documents 用于从文档创建 DocumentDB 向量存储。它接受文档列表、嵌入模型和 MongoDB 集合作为参数。
执行相似性搜索
创建向量存储后,可以使用 similarity_search 方法执行相似性搜索。
query = "What is this document about?"results = vector_store.similarity_search(query)print(results)
代码解释:
query 是你要搜索的查询语句。vector_store.similarity_search 用于执行相似性搜索。它返回与查询语句最相似的文档列表。
完整示例代码
以下是一个完整的示例代码,展示了如何使用 Langchain 将 DocumentDB 作为向量存储:
from pymongo import MongoClientfrom langchain.document_loaders import TextLoaderfrom langchain.embeddings import OpenAIEmbeddingsfrom langchain.vectorstores import DocumentDBfrom langchain.text_splitter import CharacterTextSplitter# 替换为你的 DocumentDB 连接字符串CONNECTION_STRING = "mongodb://your_username:your_password@your_documentdb_cluster.us-east-1.docdb.amazonaws.com:27017/?replicaSet=rs0&readPreference=secondaryPreferred"client = MongoClient(CONNECTION_STRING)db = client["your_database_name"] # 替换为你的数据库名称collection = db["your_collection_name"] # 替换为你的集合名称# 加载文档loader = TextLoader("your_document.txt") # 替换为你的文档路径documents = loader.load()# 分割文档text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)docs = text_splitter.split_documents(documents)# 初始化嵌入模型embeddings = OpenAIEmbeddings() # 需要 OpenAI API 密钥# 创建 DocumentDB 向量存储vector_store = DocumentDB.from_documents( docs, embeddings, collection=collection,)# 执行相似性搜索query = "What is this document about?"results = vector_store.similarity_search(query)print(results)
注意事项
确保你的 DocumentDB 集群已启用向量搜索功能。选择合适的嵌入模型,并根据你的需求调整嵌入模型的参数。根据你的文档大小和复杂度,调整 CharacterTextSplitter 的 chunk_size 和 chunk_overlap 参数。在使用 OpenAIEmbeddings 时,确保你已设置 OpenAI API 密钥。
总结
本文介绍了如何使用 Langchain 将 DocumentDB 作为向量存储。通过使用 Langchain 提供的 DocumentDB 向量存储集成,你可以轻松地将 DocumentDB 集成到你的 Langchain 应用程序中,并利用 DocumentDB 的向量搜索功能。 记住,DocumentDB的向量搜索API与MongoDB不同,因此必须使用Langchain提供的DocumentDB集成。
以上就是使用 Langchain 将 DocumentDB 作为向量存储的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/571062.html
微信扫一扫
支付宝扫一扫