数据库模式驱动的SQL生成：无需实时连接的LLM实践指南

程序猿 • 2025年12月14日 19:42:11 • 用户投稿 • 阅读 0

本文探讨了如何在不建立实时数据库连接的情况下，利用数据库模式信息驱动大型语言模型（llm）生成sql语句。我们将介绍通过手动提供模式文本、构建自定义工具等方法，绕过传统数据库链的限制，实现高效、安全的sql生成，并提供实践指导与注意事项。

引言：离线SQL模式的必要性

在利用大型语言模型（LLM）进行SQL生成时，一个常见且重要的需求是能够在没有实时数据库连接的情况下工作。这主要出于以下几个原因：

安全性考量： 避免将生产数据库的连接凭据暴露给LLM或其运行环境。性能与资源： 避免频繁建立和关闭数据库连接，尤其是在大规模或高并发的SQL生成场景中。开发与测试： 在开发阶段，可能没有可用的数据库实例，或者希望在不影响真实数据的情况下进行SQL生成测试。生成DDL而非执行查询： 有些场景下，我们只需要LLM根据需求生成数据定义语言（DDL）或查询语句本身，而不是执行它们。

传统的SQLDatabaseChain等工具通常依赖于SQLDatabase类，该类通过SQLAlchemy连接到真实的数据库以内省（inspect）其模式。这显然与“无需实时连接”的目标相悖。因此，我们需要探索替代方案，即如何仅凭数据库的模式文件或描述来指导LLM生成SQL。

理解传统SQLDatabaseChain的工作原理

SQLDatabaseChain是LangChain中用于与SQL数据库交互的强大工具。它的核心是SQLDatabase对象，该对象通过SQLAlchemy引擎连接到指定的数据库URI。一旦连接建立，SQLDatabase能够：

内省模式： 查询数据库的INFORMATION_SCHEMA或其他系统表，获取所有表名、列名、数据类型、主键、外键等详细信息。执行查询： 接收LLM生成的SQL语句并执行，然后返回结果。

SQLDatabaseChain通常会将内省到的数据库模式信息（以文本形式）作为上下文的一部分提供给LLM，从而使LLM能够理解数据库结构并生成正确的SQL。然而，这种机制的根本限制在于它要求一个可用的、具有读权限的实时数据库连接。

方法一：直接向LLM提供数据库模式文本

最直接、最简单的方法是将数据库的模式信息作为纯文本，直接嵌入到发送给LLM的提示词（Prompt）中。这种方法完全绕过了SQLDatabase的实时连接需求。

1. 提取数据库模式

首先，你需要获取目标数据库的模式信息。这可以通过以下方式实现：

从现有数据库导出： 使用数据库客户端工具（如mysqldump、pg_dump）导出DDL语句，或者查询INFORMATION_SCHEMA视图来获取表和列的定义。使用现有的DDL文件： 如果你已经有创建数据库表的DDL脚本，可以直接使用它们。手动编写： 对于简单的数据库结构，可以手动编写一个简洁的描述。

2. 格式化模式文本

将提取到的模式信息格式化为清晰、简洁的文本，以便LLM能够轻松理解。通常，DDL语句本身就是很好的格式，或者可以将其转换为易于阅读的列表或描述。

示例：

-- 表：users-- 描述：存储用户信息CREATE TABLE users (    id INT PRIMARY KEY COMMENT '用户ID',    username VARCHAR(50) UNIQUE NOT NULL COMMENT '用户名',    email VARCHAR(100) UNIQUE COMMENT '邮箱地址',    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间');-- 表：products-- 描述：存储产品信息CREATE TABLE products (    product_id INT PRIMARY KEY COMMENT '产品ID',    name VARCHAR(255) NOT NULL COMMENT '产品名称',    price DECIMAL(10, 2) NOT NULL COMMENT '产品价格',    stock INT DEFAULT 0 COMMENT '库存量');-- 表：orders-- 描述：存储订单信息，包含用户ID和产品ID的外键CREATE TABLE orders (    order_id INT PRIMARY KEY COMMENT '订单ID',    user_id INT NOT NULL COMMENT '下单用户ID',    product_id INT NOT NULL COMMENT '订单产品ID',    quantity INT NOT NULL COMMENT '购买数量',    order_date TIMESTAMP DEFAULT CURRENT_TIMESTAMP COMMENT '订单日期',    FOREIGN KEY (user_id) REFERENCES users(id),    FOREIGN KEY (product_id) REFERENCES products(product_id));

3. 构建LLM提示词

将格式化后的模式文本与用户的问题结合，构建一个引导LLM生成SQL的提示词。

示例代码：

以下是一个使用LangChain和OpenAI模型的示例，展示如何将模式作为上下文传递。

from langchain_core.prompts import ChatPromptTemplatefrom langchain_openai import ChatOpenAI # 假设你使用OpenAI模型# 假设这是你的数据库模式信息（可以是DDL语句或更简洁的描述）db_schema = """-- 表：users (存储用户信息)CREATE TABLE users (    id INT PRIMARY KEY COMMENT '用户ID',    username VARCHAR(50) UNIQUE NOT NULL COMMENT '用户名',    email VARCHAR(100) UNIQUE COMMENT '邮箱地址',    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间');-- 表：products (存储产品信息)CREATE TABLE products (    product_id INT PRIMARY KEY COMMENT '产品ID',    name VARCHAR(255) NOT NULL COMMENT '产品名称',    price DECIMAL(10, 2) NOT NULL COMMENT '产品价格',    stock INT DEFAULT 0 COMMENT '库存量');-- 表：orders (存储订单信息，包含用户ID和产品ID的外键)CREATE TABLE orders (    order_id INT PRIMARY KEY COMMENT '订单ID',    user_id INT NOT NULL COMMENT '下单用户ID',    product_id INT NOT NULL COMMENT '订单产品ID',    quantity INT NOT NULL COMMENT '购买数量',    order_date TIMESTAMP DEFAULT CURRENT_TIMESTAMP COMMENT '订单日期',    FOREIGN KEY (user_id) REFERENCES users(id),    FOREIGN KEY (product_id) REFERENCES products(product_id));"""# 构建提示模板prompt = ChatPromptTemplate.from_messages(    [        ("system", "你是一个SQL查询生成器。请根据提供的数据库模式和用户问题生成SQL语句。只返回SQL语句，不要包含任何解释或额外文字。请使用MySQL方言。"),        ("user", "数据库模式：n{schema}nn用户问题：{question}nn生成的SQL:"),    ])# 初始化LLM（请替换为你的LLM模型和API密钥）llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)# 创建链chain = prompt | llm# 示例调用question = "查询所有用户的订单数量，并按用户ID升序排列。"response = chain.invoke({"schema": db_schema, "question": question})print(response.content)# 另一个示例question_2 = "查找库存少于10个的所有产品名称及其价格。"response_2 = chain.invoke({"schema": db_schema, "question": question_2})print(response_2.content)

优点：

简单直接： 实现成本低，无需复杂的工具集成。完全离线： 无需任何数据库连接。

缺点：

上下文窗口限制： 对于非常大的数据库模式，模式文本可能会超出LLM的上下文窗口限制。模式维护： 数据库模式变更时，需要手动更新提示词中的模式文本。LLM理解能力： LLM对复杂或不规范的模式描述可能理解不佳，需要精心的提示工程。

方法二：构建自定义数据库描述工具或代理

为了克服直接提供模式文本的局限性，特别是对于复杂或动态变化的模式，我们可以构建一个自定义工具。这个工具不连接数据库，而是根据预加载或解析的模式文件提供数据库结构信息给LLM代理。LLM代理可以像查询真实数据库一样，通过调用这个工具来获取它所需的模式信息。

1. 预处理模式文件

首先，你需要将数据库模式信息加载到一个结构化的数据结构中（例如Python字典、JSON对象）。这可以从DDL文件解析、从JSON/YAML格式的模式描述文件加载。

示例结构化模式：

mock_db_schema_info = {    "tables": {        "users": {            "columns": [                {"name": "id", "type": "INT", "is_pk": True, "description": "用户ID"},                {"name": "username", "type": "VARCHAR(50)", "is_pk": False, "description": "用户名"},                {"name": "email", "type": "VARCHAR(100)", "is_pk": False, "description": "邮箱地址"},                {"name": "created_at", "type": "TIMESTAMP", "is_pk": False, "description": "创建时间"},            ],            "primary_key": ["id"],            "foreign_keys": [],            "description": "存储用户信息",        },        "products": {            "columns": [                {"name": "product_id", "type": "INT", "is_pk": True, "description": "产品ID"},                {"name": "name", "type": "VARCHAR(255)", "is_pk": False, "description": "产品名称"},                {"name": "price", "type": "DECIMAL(10, 2)", "is_pk": False, "description": "产品价格"},                {"name": "stock", "type": "INT", "is_pk": False, "description": "库存量"},            ],            "primary_key": ["product_id"],            "foreign_keys": [],            "description": "存储产品信息",        },        "orders": {            "columns": [                {"name": "order_id", "type": "INT", "is_pk": True, "description": "订单ID"},                {"name": "user_id", "type": "INT", "is_pk": False, "description": "下单用户ID"},                {"name": "product_id", "type": "INT", "is_pk": False, "description": "订单产品ID"},                {"name": "quantity", "type": "INT", "is_pk": False, "description": "购买数量"},                {"name": "order_date", "type": "TIMESTAMP", "is_pk": False,

以上就是数据库模式驱动的SQL生成：无需实时连接的LLM实践指南的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1378352.html

ai gpt js json mysql openai python sql语句工具排列邮箱

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

解决Python包安装中multidict轮子构建失败的教程

上一篇 2025年12月14日 19:42:06

Streamlit应用中高效显示本地GIF图片教程

下一篇 2025年12月14日 19:42:18

好文分享

如何利用BFC和inline-block解决兄弟元素间margin塌陷问题？

BFC清除兄弟元素间margin塌陷原理 margin塌陷问题当相邻的块级元素垂直排列，它们的margin可能会塌陷并重叠，称为margin塌陷。 BFC清除margin塌陷清除margin塌陷的一种常见方法是将下方元素包裹在一个新的块级格式化上下文（BFC）中，因为BFC之间不会相互影响。 d…

程序猿
2025年12月24日
6000
好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何优化CSS Grid布局中子元素排列和宽度问题？

css grid布局中的优化问题在使用css grid布局时可能会遇到以下问题：问题1：无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%)，这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时，它们…

程序猿
2025年12月24日
9000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
5000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
3000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
2000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
好文分享

面板翻页显示16张图片和信息，如何实现模块靠左显示并按行排列？

如何在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。已知信息：图片和信息使用json数据定义。使用paginationbyjs函数进行分页。使…

程序猿
2025年12月24日
0000
好文分享

如何在面板上翻页显示16个图片和信息，并实现模块靠左显示、内容按行排列？

如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。答案：要将div内的模块靠左显示，并按行排列模块内容，可以使用以下方式：给div容器添加flexbox属性： #list {…

程序猿
2025年12月24日
0000
好文分享

如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果中间部分里面的图片，文字显示在图片下方第二页图片靠左显示以上就是如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？的…

程序猿
2025年12月24日
0000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
1000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
3000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
3000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
1000