Pandas与SQL数据库：高效更新表列的实践指南

程序猿 • 2025年12月14日 15:37:17 • 用户投稿 • 阅读 0

本教程详细介绍了如何使用Pandas DataFrame中的新值更新SQL数据库表的指定列。文章首先展示了通过迭代DataFrame行进行逐行更新的方法，该方法适用于小规模数据但对大数据集效率低下。随后，重点介绍了利用Pandas to_sql功能结合SQL临时表进行批量更新的高效策略，这对于处理大规模数据（如十万行以上）更为适用。教程提供了详细的代码示例，并强调了主键的重要性及两种方法的适用场景。

在数据分析和处理的日常工作中，我们经常需要从sql数据库中提取数据到pandas dataframe进行清洗、转换和计算，然后将更新后的结果同步回数据库。对于少量数据，逐行更新可能可行，但面对十万行以上的大型数据集时，这种方法会变得极其低效。本教程将深入探讨两种主要的策略：逐行更新和基于临时表的批量更新，并提供详细的实现代码和最佳实践。

1. 逐行更新SQL表列

逐行更新是最直观的方法，它通过遍历DataFrame的每一行，为每行构建并执行一个SQL UPDATE语句。

1.1 工作原理

从数据库读取数据到Pandas DataFrame。在DataFrame中完成数据处理和列值更新。遍历更新后的DataFrame的每一行。对于每一行，构造一个SQL UPDATE语句，使用该行的主键作为WHERE条件，以确保只更新目标行。执行SQL UPDATE语句。提交事务并关闭数据库连接。

1.2 适用场景

数据集规模较小（例如，几千行以内）。需要对每行进行复杂的、独立的更新逻辑，难以通过单个SQL语句批量处理的情况。数据库连接延迟较低，或者对更新性能要求不高的场景。

1.3 代码示例

以下代码演示了如何使用pyodbc连接SQL Server（或其他ODBC兼容数据库），并逐行更新DataFrame中的数据到数据库表。

import pandas as pdimport pyodbc as odbc# 数据库连接字符串，请根据您的实际情况替换# 示例：'DRIVER={ODBC Driver 17 for SQL Server};SERVER=your_server;DATABASE=your_db;UID=your_user;PWD=your_password'CONNECTION_STRING = "" TABLE_NAME = "myTable"COLUMN_TO_UPDATE = "myColumn"PRIMARY_KEY_COLUMN = "id" # 假设您的表有一个名为'id'的主键列try:    # 1. 连接到数据库    sql_conn = odbc.connect(CONNECTION_STRING)    cursor = sql_conn.cursor()    # 2. 从数据库读取数据到DataFrame    query = f"SELECT * FROM {TABLE_NAME}"    df = pd.read_sql(query, sql_conn)    print(f"原始DataFrame（前5行）:n{df.head()}")    # 3. 更新DataFrame中的指定列    # 假设我们有一个新的值列表来更新'myColumn'    # 实际应用中，myNewValueList可能来自更复杂的计算或外部数据源    myNewValueList = list(range(100, 100 + len(df))) # 示例：生成新的递增值    df[COLUMN_TO_UPDATE] = myNewValueList    print(f"n更新后的DataFrame（前5行）:n{df.head()}")    # 4. 逐行更新数据库表    # SQL UPDATE语句，使用参数化查询防止SQL注入    update_sql = f"UPDATE {TABLE_NAME} SET {COLUMN_TO_UPDATE} = ? WHERE {PRIMARY_KEY_COLUMN} = ?"    for index, row in df.iterrows():        # 执行UPDATE语句，row[COLUMN_TO_UPDATE]是新值，row[PRIMARY_KEY_COLUMN]是主键值        cursor.execute(update_sql, (row[COLUMN_TO_UPDATE], row[PRIMARY_KEY_COLUMN]))    # 5. 提交更改并关闭连接    sql_conn.commit()    print(f"n成功逐行更新了 {len(df)} 条记录。")except odbc.Error as ex:    sqlstate = ex.args[0]    print(f"数据库操作失败: {sqlstate}")    if sql_conn:        sql_conn.rollback() # 发生错误时回滚事务finally:    if cursor:        cursor.close()    if sql_conn:        sql_conn.close()    print("数据库连接已关闭。")

1.4 注意事项

性能瓶颈： 对于大型数据集，每次循环都会产生一次数据库往返通信。这会导致大量的网络延迟和数据库I/O开销，使得更新过程非常缓慢。主键的重要性： WHERE子句必须包含一个唯一标识行的列（通常是主键），否则可能会错误地更新多行数据。参数化查询： 使用?（或数据库特定的占位符，如%s）进行参数化查询是防止SQL注入攻击的最佳实践。

2. 利用临时表进行批量更新（推荐用于大规模数据）

为了解决逐行更新的性能问题，特别是对于大型数据集，更高效的方法是利用数据库的批量操作能力。这通常涉及将更新后的数据写入一个临时表，然后通过一个SQL UPDATE…JOIN语句将临时表的数据批量更新到目标表。

2.1 工作原理

使用sqlalchemy连接数据库，因为它提供了与Pandas to_sql方法兼容的数据库引擎。从数据库读取数据到Pandas DataFrame并进行更新。将更新后的DataFrame整个写入数据库中的一个临时表。pandas.DataFrame.to_sql方法可以方便地完成这一步。执行一个SQL UPDATE语句，该语句通过JOIN操作将目标表与临时表连接起来，并根据临时表中的数据更新目标表的相应列。更新完成后，删除临时表以清理数据库资源。

2.2 适用场景

数据集规模庞大（例如，数万到数百万行）。对更新性能有较高要求。数据库允许创建和删除临时表。

2.3 代码示例

此方法需要安装sqlalchemy库，如果您的数据库是SQL Server，还需要安装pyodbc。

pip install sqlalchemy pandas pyodbc

import pandas as pdimport pyodbc as odbcfrom sqlalchemy import create_engine, text# 数据库连接字符串，请根据您的实际情况替换# SQLAlchemy连接字符串格式通常为：'dialect+driver://user:password@host:port/database'# 示例（SQL Server with pyodbc）：'mssql+pyodbc://user:password@server_name/database_name?driver=ODBC+Driver+17+for+SQL+Server'# 请确保您的ODBC驱动名称正确SQLALCHEMY_CONNECTION_STRING = "mssql+pyodbc://:@/?driver=ODBC+Driver+17+for+SQL+Server"PYODBC_CONNECTION_STRING = "DRIVER={ODBC Driver 17 for SQL Server};SERVER=;DATABASE=;UID=;PWD="TABLE_NAME = "myTable"COLUMN_TO_UPDATE = "myColumn"PRIMARY_KEY_COLUMN = "id" # 假设您的表有一个名为'id'的主键列TEMP_TABLE_NAME = "temp_myTable_update" # 临时表名称try:    # 1. 使用SQLAlchemy创建数据库引擎 (用于to_sql方法)    engine = create_engine(SQLALCHEMY_CONNECTION_STRING)    # 使用pyodbc连接读取数据（to_sql也可以直接使用engine，但read_sql通常更灵活）    sql_conn_pyodbc = odbc.connect(PYODBC_CONNECTION_STRING)    # 2. 从数据库读取数据到DataFrame    query = f"SELECT * FROM {TABLE_NAME}"    df = pd.read_sql(query, sql_conn_pyodbc)    sql_conn_pyodbc.close() # 读取完即可关闭pyodbc连接    print(f"原始DataFrame（前5行）:n{df.head()}")    # 3. 更新DataFrame中的指定列    # 假设我们有一个新的值列表来更新'myColumn'    myNewValueList = list(range(200, 200 + len(df))) # 示例：生成新的递增值    df[COLUMN_TO_UPDATE] = myNewValueList    print(f"n更新后的DataFrame（前5行）:n{df.head()}")    # 4. 将更新后的DataFrame写入一个临时表    # if_exists='replace' 会在每次运行时替换旧的临时表    df.to_sql(TEMP_TABLE_NAME, engine, if_exists='replace', index=False)    print(f"nDataFrame已成功写入临时表: {TEMP_TABLE_NAME}")    # 5. 执行SQL UPDATE语句，从临时表更新目标表    # 注意：SQL Server的UPDATE FROM语法，其他数据库可能略有不同    update_query = f"""    UPDATE {TABLE_NAME}    SET {TABLE_NAME}.{COLUMN_TO_UPDATE} = temp.{COLUMN_TO_UPDATE}    FROM {TABLE_NAME}    INNER JOIN {TEMP_TABLE_NAME} AS temp    ON {TABLE_NAME}.{PRIMARY_KEY_COLUMN} = temp.{PRIMARY_KEY_COLUMN};    """    # 6. 执行更新并删除临时表    with engine.connect() as conn:        # 执行更新操作        result = conn.execute(text(update_query))        print(f"成功更新了 {result.rowcount} 条记录。")        # 删除临时表        conn.execute(text(f"DROP TABLE {TEMP_TABLE_NAME}"))        print(f"临时表 {TEMP_TABLE_NAME} 已删除。")        conn.commit() # 提交事务except Exception as e:    print(f"操作失败: {e}")    # SQLAlchemy的引擎连接上下文管理器会自动处理回滚或提交finally:    if 'engine' in locals() and engine:        engine.dispose() # 确保关闭所有连接池中的连接    print("数据库连接已关闭。")

2.4 注意事项

sqlalchemy连接字符串： sqlalchemy的连接字符串格式与pyodbc直接使用的字符串不同，需要根据数据库类型和驱动进行配置。数据库权限： 执行此操作需要数据库用户具有创建表、插入数据、更新数据和删除表的权限。主键匹配： UPDATE…JOIN语句中的ON条件必须正确匹配目标表和临时表之间的主键，以确保数据更新的准确性。数据库方言： UPDATE…JOIN的语法在不同数据库（如SQL Server, MySQL, PostgreSQL）之间可能存在差异。上述示例使用的是SQL Server的语法。事务管理： sqlalchemy的engine.connect()上下文管理器通常会自动处理事务，但在复杂场景下仍需注意手动commit()或rollback()。

3. 总结与最佳实践

在选择Pandas DataFrame更新SQL表列的方法时，核心考量因素是数据量和性能需求。

小规模数据更新： 逐行更新（方法一）简单直接，易于理解和实现。大规模数据更新： 基于临时表的批量更新（方法二）是更优的选择，它能显著提高效率，减少数据库交互次数。

无论采用哪种方法，以下最佳实践都应牢记：

主键的正确使用： 确保更新操作通过主键（或唯一标识符）准确地定位到目标行。参数化查询： 始终使用参数化查询来防止SQL注入攻击，提高安全性。事务管理： 将一系列相关的数据库操作封装在事务中，确保数据的一致性。如果任何一步失败，可以回滚整个事务。错误处理： 在代码中加入适当的try-except-finally块，捕获数据库连接和操作中可能出现的异常，并确保在发生错误时能妥善处理（例如回滚事务，关闭连接）。资源管理： 始终在操作完成后关闭数据库连接和游标，释放数据库资源。测试： 在生产环境执行大规模更新前，务必在测试环境中充分验证更新逻辑和性能。

通过理解和应用这些策略与实践，您可以有效地利用Pandas处理数据并将其高效地同步回SQL数据库。

以上就是Pandas与SQL数据库：高效更新表列的实践指南的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1376108.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

掌握PySide6与DBus信号的连接：深度教程

上一篇 2025年12月14日 15:37:13

python Pytest有什么特点

下一篇 2025年12月14日 15:37:19

用户投稿

开源免费PHP工具 PHP开发效率提升利器

推荐开源免费PHP开发工具以提升效率：VS Code、Sublime Text轻量高效，PhpStorm专业强大；调试用Xdebug、Kint、Ray；依赖管理选Composer；代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer；数据库管理可用%ignore_a_1%MyA…

程序猿
2026年5月10日
0000
用户投稿

Golang JSON序列化：控制敏感字段暴露的最佳实践

本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时，通过利用`encoding/json`包提供的结构体标签，特别是`json:”-“`，可以轻松实现对特定字段的忽略，从而避免敏感数据泄露，确保api…

程序猿
2026年5月10日
0000
《魔兽世界》将于6月11日开启国服回归技术测试

《%ign%ignore_a_1%re_a_1%》官方宣布，将于6月11日开启国服回归技术测试，时间为7天，并称可以在6月内正式开服，玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端，技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情以上就是《…

程序猿
2026年5月10日 • 用户投稿
2000
用户投稿

如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

HTML表单通过标签构建，包含action和method属性定义数据提交目标与方式，常用input类型如text、password、email等适配不同输入需求，配合label、required、placeholder提升可用性，结合textarea、select、button等控件实现完整交互，是…

程序猿
2026年5月10日
0000
用户投稿

PHP动态生成表单输入与POST数据获取实践指南

本教程详细阐述了如何在php中根据动态数据源（如数据库值）生成多个表单输入框，并演示了如何通过post方法准确无误地获取这些动态生成的输入值。文章强调了正确的输入框命名策略，避免了常见的命名误区，并提供了完整的代码示例，确保开发者能够高效处理动态表单数据。动态生成表单输入在Web开发中，我们经常…

程序猿
2026年5月10日
0000
用户投稿

c++如何实现UDP通信_c++基于UDP的网络通信示例

UDP通信基于套接字实现，适用于实时性要求高的场景。1. 流程包括创建套接字、绑定地址（接收方）、发送（sendto）与接收（recvfrom）数据、关闭套接字；2. 服务端监听指定端口，接收客户端消息并回传；3. 客户端发送消息至服务端并接收响应；4. 跨平台需处理Winsock初始化与库链接，编…

程序猿
2026年5月10日
0000
MySQL数据库不支持中文的解决办法

接上一篇文章，在解决了mysql+flask环境配置问题之后，往数据库存中文字符串会报1366错误，提示不正确的字符。继而发现默认的mysql采用了latin1字符集，这种编码是不支持中文的。如果想支持中文的话，需要设置一下mysql字符集。众所周知utf-8是可以的，gbk也没问题，为了可扩展…

程序猿
用户投稿 2026年5月10日
0000
用户投稿

Golang如何优化日志写入性能_Golang日志写入与文件IO优化方法

使用缓冲、异步写入、高性能日志库和优化IO策略提升Golang日志性能，推荐zap+异步缓冲+SSD组合以平衡实时性、可靠性与高并发需求。在高并发场景下，Golang程序的日志写入可能成为性能瓶颈。频繁的文件IO操作不仅影响响应速度，还可能导致系统负载升高。要提升日志写入性能，不能只依赖简单的fm…

程序猿
2026年5月10日
0000
用户投稿

Go语言连接外部MySQL数据库：DSN配置与常见错误解析

本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称（dsn）的规范格式，特别是主机地址部分的配置，以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

程序猿
2026年5月10日
0000
用户投稿

Python代码如何实现定时任务 Python代码使用Schedule模块的配置

答案：使用Python的schedule模块可实现定时任务，通过try-except处理异常确保程序不中断，结合threading实现多线程任务避免阻塞，利用JSON文件保存和加载任务配置实现持久化。使用Python实现定时任务，主要依赖于schedule模块，它提供了一种简单易懂的方式来安排周期…

程序猿
2026年5月10日
0000
用户投稿

C++怎么使用C++17的并行算法库_C++ std::execution与多核性能优化

c++kquote>C++17通过std::execution策略引入并行算法支持，需编译器（如GCC 8+）和线程库（如TBB）配合；提供seq、par、par_unseq三种策略控制执行模式；可用于sort、for_each等算法提升大数据性能，但需避免数据竞争，推荐使用reduce等安全…

程序猿
2026年5月10日
0000
用户投稿

如何使用AutoKeras训练AI大模型？自动构建神经网络的指南

AutoKeras在AI大模型训练中扮演“智能建筑师”角色，通过自动化神经架构搜索与超参数优化，加速模型开发迭代。它基于Keras/TensorFlow，支持图像、文本、结构化数据任务，提供ImageClassifier、TextClassifier等接口，用户只需设定max_trials和epoc…

程序猿
2026年5月10日
3000
用户投稿

实时音频转音素实现2D角色唇语同步教程

本文详细介绍了如何将实时麦克风音频转换为音素，以实现2D角色唇语同步。核心方法是分两步走：首先利用语音转文本（STT）服务（如Python SpeechRecognition库）将实时音频转换为单词，然后使用CMU Dict库将这些单词映射为对应的音素。文章还将探讨如何进一步将CMU音素转换为国际音…

程序猿
2026年5月10日
0000
用户投稿

后缀php怎么打开_php文件打开方式与运行环境搭建指南

要打开PHP文件需根据用途选择方式：查看代码可用文本编辑器或IDE，运行则需服务器环境。推荐新手使用XAMPP、WAMP等集成环境，将文件放入htdocs目录后访问localhost；开发者可利用PHP内置服务器，命令行执行php -S localhost:8000运行；高级用户可手动配置Apach…

程序猿
2026年5月10日
0000
用户投稿

使用SMTP.js发送邮件：客户端集成、常见问题与最佳实践指南

本文深入探讨了使用SMTP.js库在前端发送邮件时可能遇到的问题，特别是与Elastic Email集成时的挑战。我们将分析代码中常见的异步处理错误、条件函数定义陷阱，并提供修正后的代码示例和最佳实践。重点强调了正确处理Promise链、确保函数可访问性以及客户端邮件发送的安全考量，帮助开发者构建更…

程序猿
2026年5月10日
0000
用户投稿

PHP动态网页数据库备份恢复_PHP动态网页MySQL数据库备份教程

答案：PHP动态网页的MySQL数据库备份与恢复需通过定期导出SQL文件并安全存储来保障数据安全，核心方法包括使用mysqldump命令行工具实现高效灵活的自动化备份，利用phpMyAdmin图形化工具进行手动导出导入以降低操作门槛，以及通过PHP脚本调用系统命令将备份过程集成到应用中；恢复时可采用…

程序猿
2026年5月10日
0000
用户投稿

ChromaDB向量嵌入的有效持久化策略

本文详细介绍了如何利用langchain中chromadb的`persist_directory`功能，高效地持久化存储向量嵌入。通过将生成的嵌入数据保存到本地磁盘，可以有效避免重复计算，显著提升工作流程效率。教程将涵盖持久化chromadb实例的创建与后续加载的完整过程。在处理大规模文本数据并生…

程序猿
2026年5月10日
0000
用户投稿

Svelte视频播放器音量调节卡顿问题解析与优化

本文深入探讨了在svelte中使用hls.js构建视频播放器时，调节音量可能导致帧率下降的问题。核心原因是svelte的响应式绑定机制与视频元素的`currenttime`属性不当结合。通过分析响应式声明`playbacktime = video.currenttime`如何与`bind:curre…

程序猿
2026年5月10日
0000
php登录怎么实现_php用户登录系统完整实现

<blockquote>PHP用户登录系统的核心是安全验证与会话管理。首先创建POST提交的登录表单，避免敏感信息暴露；后端通过session_start()启动会话，使用trim()和htmlspecialchars()清理输入，防止XSS攻击；利用PDO预处理语句查询数据库，防止SQ…

程序猿
用户投稿 2026年5月10日
0000
用户投稿

WordPress自定义主题中根据文章数量动态显示/隐藏“查看更多”按钮的教程

本教程旨在指导开发者如何在wordpress自定义主题中，根据特定文章类型和分类的实际数量，动态控制“查看更多”按钮的显示与隐藏。我们将利用 wp_query 及其 found_posts 属性，精确判断符合条件的文章总数，从而在有更多文章时显示按钮，在无文章时显示提示信息，优化用户体验。引言在…

程序猿
2026年5月10日
0000