psycopg3 高效批量插入与冲突处理:executemany 的正确实践

psycopg3 高效批量插入与冲突处理:executemany 的正确实践

本教程详细探讨了 `psycopg3` 中使用 `executemany` 进行批量数据插入和冲突更新的正确方法。针对 `psycopg2` `execute_values` 的弃用,文章演示了如何构建动态 sql 语句以适应多行插入,重点讲解了占位符的正确配置,以及如何利用 `psycopg.sql` 模块提高 sql 语句构造的安全性和灵活性,避免常见的 `programmingerror`。

1. psycopg3 批量插入与 executemany 的挑战

在 psycopg2 中,execute_values 提供了一种便捷的方式来批量插入多行数据。然而,在 psycopg3 中,该方法已被移除,开发者需要转而使用 cursor.executemany()。使用 executemany 时,一个常见的误区是直接将 VALUES %s 用于表示多列的占位符,例如:

sql = """INSERT INTO activities (type_, key_, a, b, c, d, e)VALUES %sON CONFLICT (key_) DO UPDATESET    a = EXCLUDED.a,    b = EXCLUDED.b,    c = EXCLUDED.c,    d = EXCLUDED.d,    e = EXCLUDED.e"""values = [['type', 'key', None, None, None, None, None]]# 尝试执行:cursor.executemany(sql, values)

这种做法会导致 ProgrammingError: the query has 1 placeholder but 7 parameters were passed 错误。这是因为 executemany 要求 SQL 语句中的占位符数量必须与每一行数据中的列数严格匹配,即每插入一列就需要一个 %s 占位符。VALUES %s 仅表示一个整体的占位符,而我们实际传入的 values 列表中的每个子列表包含多达7个元素。

正确的做法是为每一列提供一个 %s 占位符,并用括号将其包围,例如 VALUES (%s, %s, %s, …)。

2. 方法一:通过字符串操作动态构建占位符

为了解决上述问题,我们可以根据待插入数据的列数,动态生成相应数量的占位符字符串。这种方法适用于列数不固定或需要在运行时确定的场景。

首先,确定数据中每行的列数。然后,生成与列数相同数量的 %s 占位符,并用逗号连接起来,最后用括号包裹形成 VALUES 子句。

import psycopg# 示例数据,每行包含7列values = [['type1', 'key1', 'val_a1', 'val_b1', 'val_c1', 'val_d1', 'val_e1'],          ['type2', 'key2', 'val_a2', 'val_b2', 'val_c2', 'val_d2', 'val_e2'],          ['type3', 'key3', None, None, None, None, None]]# 假设所有行的列数相同,取第一行作为参考num_columns = len(values[0])# 生成占位符字符串,例如:(%s, %s, %s, %s, %s, %s, %s)placeholders = ', '.join(['%s'] * num_columns)values_clause = f"({placeholders})"# 构建完整的 SQL 语句# 注意:这里我们直接将占位符字符串注入到 SQL 模板中sql_template = f"""INSERT INTO activities (type_, key_, a, b, c, d, e)VALUES {values_clause}ON CONFLICT (key_) DO UPDATESET    a = EXCLUDED.a,    b = EXCLUDED.b,    c = EXCLUDED.c,    d = EXCLUDED.d,    e = EXCLUDED.e"""# 建立数据库连接并执行try:    with psycopg.connect(dbname='your_database', user='your_user', password='your_password', host='localhost') as conn:        with conn.cursor() as cur:            cur.executemany(sql_template, values)            conn.commit()            print(f"成功插入/更新 {len(values)} 行数据。")except psycopg.Error as e:    print(f"数据库操作失败: {e}")

注意事项:

这种方法虽然有效,但在拼接 SQL 语句时需要格外小心,以防范 SQL 注入风险,尤其当 values_clause 的内容并非完全由程序内部控制时。对于复杂的动态 SQL 构建,字符串拼接可能导致代码可读性下降和维护困难。

3. 方法二:使用 psycopg.sql 模块构建安全动态 SQL

psycopg3 提供了 psycopg.sql 模块,这是一个更安全、更强大的工具,用于程序化地构建 SQL 语句。它能够帮助我们避免 SQL 注入风险,并提高动态 SQL 的可读性和可维护性。

psycopg.sql 模块的核心思想是将 SQL 语句的各个部分(如标识符、字面量、占位符)作为独立的 SQL 对象处理,然后通过 SQL 对象的 join、format 等方法进行组合。

import psycopgfrom psycopg import sql# 示例数据values = [['type1', 'key1', 'val_a1', 'val_b1', 'val_c1', 'val_d1', 'val_e1'],          ['type2', 'key2', 'val_a2', 'val_b2', 'val_c2', 'val_d2', 'val_e2'],          ['type3', 'key3', None, None, None, None, None]]num_columns = len(values[0])# 使用 sql.Placeholder() 创建占位符对象# sql.SQL(', ').join(...) 将占位符用逗号连接起来placeholders = sql.SQL(', ').join(sql.Placeholder() * num_columns)# 构建 SQL 语句模板,使用 {placeholders} 作为命名占位符# 注意:这里的 VALUES ({placeholders}) 中的括号是 SQL 语法的一部分isql_template = sql.SQL("""INSERT INTO activities (type_, key_, a, b, c, d, e)VALUES ({placeholders})ON CONFLICT (key_) DO UPDATESET    a = EXCLUDED.a,    b = EXCLUDED.b,    c = EXCLUDED.c,    d = EXCLUDED.d,    e = EXCLUDED.e""")# 使用 .format() 方法将占位符对象注入到 SQL 模板中# psycopg.sql 会正确地处理这些占位符,生成安全的 SQLfinal_isql = isql_template.format(placeholders=placeholders)# 建立数据库连接并执行try:    with psycopg.connect(dbname='your_database', user='your_user', password='your_password', host='localhost') as conn:        with conn.cursor() as cur:            # 可以打印生成的 SQL 语句以供调试            # print(f'Generated SQL: {final_isql.as_string(conn)}')            cur.executemany(final_isql, values)            conn.commit()            print(f"成功插入/更新 {len(values)} 行数据。")except psycopg.Error as e:    print(f"数据库操作失败: {e}")

psycopg.sql 模块的优势:

安全性: 自动处理标识符和字面量的引用,有效防止 SQL 注入。可读性: 将 SQL 结构化为 Python 对象,使动态 SQL 更易于理解和维护。灵活性: 方便地组合复杂的 SQL 片段。

4. 总结

在 psycopg3 中进行批量数据插入和冲突更新时,executemany 是一个强大的工具。关键在于正确理解其占位符机制:对于 VALUES 子句,需要为每一列数据提供一个独立的 %s 占位符,并用括号包裹。

为了实现这一目标,我们可以选择:

字符串拼接: 简单直接,适用于占位符结构相对固定的场景,但需注意潜在的 SQL 注入风险。psycopg.sql 模块: 推荐用于构建更复杂、更安全的动态 SQL 语句,它通过对象化的方式管理 SQL 片段,提高了代码的健壮性和可维护性。

无论选择哪种方法,都应确保 SQL 语句的占位符数量与每行数据的列数精确匹配,这是避免 ProgrammingError 的核心。同时,合理利用事务管理,确保批量操作的原子性和数据一致性。

以上就是psycopg3 高效批量插入与冲突处理:executemany 的正确实践的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1379304.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 20:32:51
下一篇 2025年12月14日 20:33:04

相关推荐

  • 在discord.py中为随机Embed消息发送特定图片

    本教程详细介绍了如何在discord.py机器人中实现为每个随机生成的Embed消息配备独有图片的功能。核心方法是预先构建完整的`discord.Embed`对象,包括其标题、描述和特定图片URL,然后将这些完整的Embed对象存储在一个列表中进行随机选择,并结合按钮交互实现“抽卡”效果。 引言 在…

    好文分享 2025年12月14日
    000
  • Python多版本环境下的虚拟环境创建与管理指南

    本教程旨在解决同一机器上安装多个python版本时,因path环境变量配置限制导致无法直接调用特定版本python创建虚拟环境的问题。通过创建自定义批处理文件作为不同python可执行文件的快捷方式,用户可以灵活、精确地指定所需python版本来初始化虚拟环境,从而高效管理项目依赖,避免版本冲突,确…

    2025年12月14日
    000
  • Python 实现:计算常规文件在磁盘上的实际占用空间

    本文详细阐述了如何使用python在unix-like系统上计算常规文件在磁盘上的实际占用空间。针对文件系统块分配原理,提供了一个高效的python函数,能够基于文件的逻辑大小和文件系统块大小进行精确计算,并包含性能优化策略。文章同时明确了该方案的适用范围、系统兼容性限制以及对空文件处理的注意事项,…

    2025年12月14日
    000
  • Node.js版本升级中Node-gyp错误解析与解决方案

    针对node.js版本升级(特别是node 20.9.0)过程中常见的node-gyp编译错误,本教程深入分析了其潜在原因,包括网络连接问题、tls证书验证失败以及python环境配置不当。文章重点推荐使用yarn作为解决依赖冲突和构建问题的有效策略,并提供了其他针对性排查和修复建议,旨在帮助开发者…

    2025年12月14日
    000
  • Pandas DataFrame 按列值高效筛选:切割与子集选择教程

    本教程详细介绍了如何使用pandas高效地根据dataframe中某一列的特定值或范围来筛选和“切割”数据。我们将探讨布尔索引和`df.query()`两种核心方法,并通过实例代码演示如何从大型数据集中提取所需的时间段或其他数值区间,确保数据分析和可视化只关注目标数据。 在数据分析中,我们经常需要从…

    2025年12月14日
    000
  • 探索数字特性:寻找乘积等于自身的两位数及其Python实现

    本文旨在探讨一个有趣的数字特性:找出所有两位数中,其各位数字乘积等于该数字本身的特殊数。我们将详细解析如何通过数学逻辑分解两位数,并提供清晰的python代码实现,帮助读者理解并掌握此类问题的编程解决方法。 深入理解问题:数字乘积等于自身 在数字世界中,存在一些拥有独特属性的数。本次教程将聚焦于一个…

    2025年12月14日
    000
  • Pandas数据清洗:高效处理混合分隔符与文本数字的列拆分与转换

    本教程旨在解决pandas数据处理中常见的挑战:如何将包含混合分隔符和文本(英文单词)表示数字的单列数据,拆分成多个独立的数值列。我们将探讨使用正则表达式提取数据、结合`word2number`库将文本数字转换为数值,并利用pandas的强大功能进行高效的数据清洗、类型转换与结构重塑,确保数据准确性…

    2025年12月14日
    000
  • Robot Framework日期时间差计算:解决格式化错误与实现分钟级精度

    本教程旨在解决robot framework中计算两个日期时间差时常见的格式化错误问题。文章详细解释了`subtract date from date`关键字对日期格式的默认要求(iso 8601),并提供了正确的日期获取与格式化方法。通过示例代码,演示了如何将日期时间转换为符合规范的格式,并最终将…

    2025年12月14日
    000
  • Xcelium仿真环境中Specman/e环境变量配置详解

    本文详细阐述了在Xcelium仿真环境中为Specman/e代码设置环境变量的多种方法,旨在解决用户在调用外部工具(如Python)时遇到的变量识别问题。内容涵盖了通过Shell、Xcelium Tcl接口设置变量的步骤,并提供了相应的代码示例和最佳实践,确保环境变量能被Specman/e代码正确访…

    2025年12月14日
    000
  • 解决Keras安装失败:Python版本兼容性与dm-tree构建问题

    本文针对使用`pip install keras`时遇到的`dm-tree`构建错误,特别是涉及`cmake`和`filenotfounderror`的安装失败问题,提供了详细的解决方案。核心方法是降级python版本,因为keras及其依赖(如tensorflow)可能尚未完全兼容最新的pytho…

    2025年12月14日
    000
  • Python 包管理深度解析:理解 pipx 与虚拟环境的正确使用

    pipx 旨在安装独立的 python 应用程序而非供导入的库。当使用 pipx 安装 binance-connector 后,因其隔离特性导致 modulenotfounderror。本文将阐明 pipx 的用途,并指导如何通过虚拟环境(如 venv)正确安装和管理 python 库,确保它们能被…

    2025年12月14日
    000
  • 在多版本Python环境下创建指定版本虚拟环境的策略

    本文旨在解决在同一台计算机上安装多个Python版本时,如何有效管理并利用特定版本创建虚拟环境的问题。通过介绍一种利用批处理文件(.bat)作为特定Python版本快捷方式的方法,用户可以轻松地在系统PATH中调用任意Python版本,从而精确控制虚拟环境的创建过程,避免“Python未找到”等常见…

    2025年12月14日
    000
  • 从自定义经验累积分布函数 (CDF) 进行采样的 Python 技术指南

    本教程详细介绍了如何使用 python 从自定义经验累积分布函数 (cdf) 中高效采样。文章将探讨两种核心方法:一种是直接基于 cdf 离散点进行采样,利用 `numpy.interp` 实现;另一种是通过平滑处理 cdf,例如使用样条插值,借助 `scipy.interpolate.interp…

    2025年12月14日
    000
  • Xarray重采样与自定义函数应用:避免维度不一致的策略

    本文旨在解决xarray数据集中,对重采样结果进行迭代并应用自定义函数时,可能因手动迭代导致维度长度不一致,进而引发`valueerror`的问题。我们将深入探讨此错误的原因,并介绍如何利用xarray的`apply`方法,以声明式、高效且维度安全的方式处理重采样数据,确保数据对齐,从而避免常见的合…

    2025年12月14日
    000
  • 深入理解NumPy数组的维度与形状:从一维到多维的创建与转换

    numpy数组的维度和形状是其核心概念。本文旨在澄清一维数组`np.array([x, y])`的形状为`(2,)`而非`(1, 2)`的原因,并详细解释numpy如何通过嵌套列表识别数组维度。同时,教程将提供多种实用方法,包括使用`reshape`方法、直接修改`shape`属性以及高级索引技巧,…

    2025年12月14日
    000
  • 优化快速排序处理大量重复元素的策略与实现

    快速排序在处理包含大量重复元素的数组时,传统Lomuto分区方案可能导致性能退化至O(n²)。本文将探讨这一问题,分析一种通过随机交换处理重复元素的创新思路,并详细介绍业界更广泛采用的Hoare分区方案以及高效的三向分区(Dutch National Flag)算法,旨在提供在面对重复数据时优化快速…

    2025年12月14日
    000
  • Odoo QWeb模板中浮点数到整数的正确转换与显示

    在odoo qweb模板中,当需要将浮点数转换为整数并显示时,直接使用t-value=”int(field)”在标签内可能无法正确输出内容。本文将详细讲解,对于此类显示需求,应使用t-esc指令来安全地转义并显示表达式的计算结果,确保数据在报表或界面中正常呈现。 Odoo Q…

    2025年12月14日
    000
  • Windows环境下Keras 3.x安装与WSL2应用指南

    keras 3.x在windows系统上直接安装常因依赖(如dm-tree)编译失败而受阻,官方推荐通过windows subsystem for linux 2 (wsl2) 环境进行部署。本文将详细指导如何在windows上安装并配置wsl2,进而在linux子系统中成功安装keras 3.x,…

    2025年12月14日
    000
  • python中如何用for循环求立方和_python中for循环计算数字立方和的实例代码

    答案:通过for循环遍历1到n的整数,计算每个数的立方并累加。示例计算1到5的立方和为225,代码可封装成函数并支持用户输入实现灵活调用。 在Python中,可以用 for循环 来逐个遍历数字,计算每个数的立方,并累加得到立方和。下面是一个简单实用的例子,演示如何计算从1到n之间所有整数的立方和。 …

    2025年12月14日
    000
  • Python多目录项目导入模块深度解析与最佳实践

    本文旨在深入探讨python多目录项目中常见的模块导入问题及其解决方案。我们将分析python的导入机制,区分独立包与子包结构下的导入策略,并提供正确的执行方式。文章还将强调将可执行脚本与可复用包分离的最佳实践,帮助开发者构建结构清晰、易于维护的python项目。 在Python项目开发中,随着项目…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信