Redshift数据库中从DataFrame高效批量插入数据的策略与实践

程序猿 • 2025年12月15日 00:32:42 • 好文分享 • 阅读 0

本教程旨在解决从python dataframe向amazon redshift数据库高效批量插入数据的挑战。文章将深入探讨传统逐行或小批量插入方法的性能瓶颈，并提出两种优化策略：利用`psycopg2.extras.execute_values`实现多行sql插入，以及更推荐的、通过amazon s3服务结合redshift的`copy`命令进行大规模数据加载。通过具体代码示例和最佳实践，帮助开发者显著提升数据导入效率。

在处理大规模数据集成任务时，将Python DataFrame中的数据导入Amazon Redshift这类分析型数据库，常常面临性能瓶颈。传统的逐行插入或小批量executemany方法，对于数十万甚至数百万条记录的数据集来说，效率低下，可能导致数天的时间消耗甚至连接超时。Redshift作为一款大规模并行处理（MPP）的列式存储数据库，其设计哲学是优化大规模数据的批量加载，而非频繁的单行或小批量操作。

理解Redshift的批量加载机制

Redshift的性能优势在于其分布式架构和列式存储。每次执行SQL插入操作，即使是executemany，如果底层仍然是发送多条独立的INSERT语句，或者每次只插入少量数据，都会引入大量的网络往返开销、事务开销以及数据库内部的元数据处理开销。这与Redshift期望的“一次性加载大量数据”的工作模式相悖。官方文档明确指出，当无法使用COPY命令时，应尽可能使用多行插入（multi-row insert），因为单行或少量行的数据添加会导致数据压缩效率低下。

优化策略一：使用多行SQL插入 (psycopg2.extras.execute_values)

对于无法直接使用COPY命令的场景，或数据量相对较小（但仍远超单行）时，多行SQL插入是比逐行或executemany更优的选择。psycopg2库提供了psycopg2.extras.execute_values函数，它可以将多行数据构建成一个单一的SQL INSERT INTO … VALUES (…), (…), … 语句，从而显著减少与数据库的交互次数。

示例代码：

import psycopg2import pandas as pdfrom psycopg2 import extrasimport io# 假设 df 是您的 DataFrame# df = pd.DataFrame(...)# 示例数据 (与原问题保持一致的结构)data = [    {'case_id': 69370, 'column_name': 'subject', 'split_text': 'working', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69370, 'column_name': 'subject', 'split_text': 'scenes', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69370, 'column_name': 'subject', 'split_text': 'intended', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'redirected', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'ge', 'split_text_cnt': 2, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'sensor', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'flush', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'motion', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'led', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'fixture', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'contact', 'split_text_cnt': 1, 'load_ts': '2023-12-15'}]df = pd.DataFrame(data)# Redshift 连接参数conn_params = {    'host': 'redshift-####-dev.00000.us-east-1.redshift.amazonaws.com',    'database': '*****',    'user': '****',    'password': '*****',    'port': '5439'}table_name = 'odey.sfc_ca_sit_di' # 目标表名columns = ['case_id', 'column_name', 'split_text', 'split_text_cnt', 'load_ts'] # 目标表的列名try:    conn = psycopg2.connect(**conn_params)    print("成功连接到 Redshift Dev")    cur = conn.cursor()    # 将DataFrame转换为元组列表，顺序与目标列一致    values = [tuple(row) for row in df[columns].values]    # Redshift SQL 命令的最大大小为16MB，因此需要分批插入    batch_size = 10000 # 根据实际情况调整批次大小，确保SQL语句不超过16MB    for i in range(0, len(values), batch_size):        batch = values[i:i + batch_size]        # 使用 execute_values 构建多行插入语句        extras.execute_values(            cur,            f"INSERT INTO {table_name} ({','.join(columns)}) VALUES %s",            batch        )        conn.commit() # 每批次提交一次        print(f"已插入 {min(i + batch_size, len(values))} 条记录。")    print("数据批量插入完成。")except Exception as e:    print(f"插入数据时发生错误: {e}")    if conn:        conn.rollback() # 发生错误时回滚finally:    if cur:        cur.close()    if conn:        conn.close()    print("数据库连接已关闭。")

注意事项：

批次大小 (batch_size)： Redshift SQL 命令的最大大小为16MB。因此，即使使用execute_values，也需要根据每行数据的大小和总行数进行分批处理，以避免SQL语句过大。通常，数千到数万行的批次是合理的起点，具体数值需要根据数据宽度进行测试。事务管理： 建议每批次提交一次事务（conn.commit()），以平衡性能和数据一致性。过大的事务可能导致长时间锁定和内存问题，而过小的事务则会增加提交开销。

优化策略二：通过Amazon S3和COPY命令进行大规模数据加载（推荐）

对于大规模数据集（如数十万到数百万条记录，甚至TB级别），Redshift的COPY命令是最高效、最推荐的数据加载方式。COPY命令允许Redshift直接从Amazon S3存储桶中并行加载数据，利用其分布式架构的全部能力。

核心步骤：

将DataFrame保存到S3： 将DataFrame数据转换为文件格式（如CSV、Parquet等），并上传到Amazon S3存储桶。执行Redshift COPY命令： 在Redshift中执行COPY命令，指示其从S3存储桶加载数据。

示例代码：

首先，确保您已安装boto3（AWS SDK for Python）和pandas。

import psycopg2import pandas as pdimport boto3import io# 假设 df 是您的 DataFrame# df = pd.DataFrame(...)# 示例数据 (与原问题保持一致的结构)data = [    {'case_id': 69370, 'column_name': 'subject', 'split_text': 'working', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69370, 'column_name': 'subject', 'split_text': 'scenes', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69370, 'column_name': 'subject', 'split_text': 'intended', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'redirected', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'ge', 'split_text_cnt': 2, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'sensor', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'flush', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'motion', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'led', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'fixture', 'split_text_cnt': 1, 'load_ts': '2023-12-15'},    {'case_id': 69371, 'column_name': 'subject', 'split_text': 'contact', 'split_text_cnt': 1, 'load_ts': '2023-12-15'}]df = pd.DataFrame(data)# Redshift 连接参数conn_params = {    'host': 'redshift-####-dev.00000.us-east-1.redshift.amazonaws.com',    'database': '*****',    'user': '****',    'password': '*****',    'port': '5439'}# S3 配置s3_bucket = 'your-s3-bucket-name' # 替换为您的S3存储桶名称s3_key = 'data/temp_redshift_load.csv' # S3文件路径iam_role_arn = 'arn:aws:iam::123456789012:role/YourRedshiftIAMRole' # 替换为您的Redshift IAM角色ARNtable_name = 'odey.sfc_ca_sit_di' # 目标表名try:    # 1. 将DataFrame保存到S3    csv_buffer = io.StringIO()    df.to_csv(csv_buffer, index=False, header=False) # Redshift COPY通常不需要header    s3_client = boto3.client('s3', region_name='us-east-1') # 替换为您的AWS区域    s3_client.put_object(Bucket=s3_bucket, Key=s3_key, Body=csv_buffer.getvalue())    print(f"数据已成功上传到 S3: s3://{s3_bucket}/{s3_key}")    # 2. 连接Redshift并执行COPY命令    conn = psycopg2.connect(**conn_params)    print("成功连接到 Redshift Dev")    cur = conn.cursor()    # 构建COPY命令    # 注意：这里的列顺序必须与CSV文件中的数据顺序一致    copy_sql = f"""    COPY {table_name} ({','.join(df.columns)})    FROM 's3://{s3_bucket}/{s3_key}'    IAM_ROLE '{iam_role_arn}'    CSV    DELIMITER ','    IGNOREHEADER 0; -- 如果CSV没有头部，设置为0    """    # 如果CSV有头部，设置为 IGNOREHEADER 1    cur.execute(copy_sql)    conn.commit()    print("数据已通过 Redshift COPY 命令成功加载。")except Exception as e:    print(f"数据加载过程中发生错误: {e}")    if conn:        conn.rollback()finally:    if cur:        cur.close()    if conn:        conn.close()    print("数据库连接已关闭。")    # 可选：清理S3上的临时文件    # try:    #     s3_client.delete_object(Bucket=s3_bucket, Key=s3_key)    #     print(f"S3临时文件 s3://{s3_bucket}/{s3_key} 已删除。")    # except Exception as e:    #     print(f"删除S3文件时发生错误: {e}")

关键配置与最佳实践：

IAM角色： Redshift集群需要一个具有访问S3存储桶权限的IAM角色。该角色应具有s3:GetObject和s3:ListBucket权限。将IAM角色的ARN提供给COPY命令。文件格式：CSV： 简单易用，但对于复杂数据类型可能需要额外处理。Parquet/ORC： 推荐用于大规模数据集。它们是列式存储格式，具有更好的压缩和编码效率，Redshift可以直接利用这些格式的优势进行更高效的加载。使用pyarrow库可以将DataFrame保存为Parquet格式。压缩： 强烈建议对S3上的数据文件进行压缩（如GZIP、SNAPPY）。Redshift的COPY命令支持多种压缩格式，可以显著减少数据传输量和加载时间。文件分片： 对于非常大的数据集，将数据分成多个小文件（例如，每个文件大小在1MB到1GB之间，取决于集群大小）并上传到S3，可以使Redshift的多个切片（slice）并行加载数据，进一步提高效率。错误处理： COPY命令提供了强大的错误处理机制，例如MAXERRORS、NOLOAD、DATEFORMAT、TIMEFORMAT等选项，可以帮助您在加载过程中处理数据不匹配或格式错误。

总结

从Python DataFrame向Amazon Redshift高效批量插入数据，应避免传统的逐行或小批量executemany方法。对于中等规模的数据，可以采用psycopg2.extras.execute_values构建多行SQL插入语句，并注意分批处理以遵守SQL命令大小限制。然而，对于大规模数据集，最推荐且最高效的方法是利用Amazon S3作为中间存储，结合Redshift的COPY命令进行数据加载。通过选择合适的S3文件格式、压缩以及正确的IAM配置，可以充分发挥Redshift的并行处理能力，实现极速的数据导入。

以上就是Redshift数据库中从DataFrame高效批量插入数据的策略与实践的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1382789.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

在Pyodide中利用Basthon Turtle渲染动画SVG教程

上一篇 2025年12月15日 00:32:31

Python自定义可重用迭代器：实现类似内置range类的行为

下一篇 2025年12月15日 00:32:51

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

应对性能瓶颈：前端工程师的重绘与回流解决方案

重绘和回流解密：前端工程师如何应对性能瓶颈引言：随着互联网的快速发展，前端工程师的角色越来越重要。他们需要处理用户界面的设计和开发，同时还要关注网站性能的优化。在前端性能优化中，重绘和回流是常见的性能瓶颈。本文将详细介绍重绘和回流的原理，并提供一些实用的代码示例，帮助前端工程师应对性能瓶颈。一、…

程序猿
2025年12月24日
2000
好文分享

css怎么设置文件编码

在css中，可以使用“@charset”规则来设置编码，语法格式“@charset “字符编码类型”;”。“@charset”规则可以指定样式表中使用的字符编码，它必须是样式表中的第一个元素，并且不能以任何字符开头。本教程操作环境：windows7系统、CSS3&&…

程序猿
2025年12月24日
0000
好文分享

CSS的Word中的列表详解

在word中，列表也是使用频率非常高的元素。在css中，列表和列表项都是块级元素。也就是说，一个列表会形成一个块框，其中的每个列表项也会形成一个独立的块框。所以，盒模型中块框的所有属性，都适用于列表和列表项。除此之外，列表还有 3 个特有的属性 list-style-type、list-style…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5能否禁用搜索框自动填充_html5autocomplete关闭方法【教程】

禁用HTML5搜索框自动填充有五种方法：一、设autocomplete=”off”；二、随机化name/id值；三、用无效autocomplete值如”nope”；四、JS动态设置autocomplete；五、设autocomplete=”…

程序猿
2025年12月23日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
好文分享

html5怎么设置单选_html5用input type=”radio”加name设单选按钮组【设置】

HTML5 使用 type=”radio” 实现单选功能，需统一 name 值构成互斥组；通过 checked 设默认项；可用 CSS 隐藏原生控件并自定义样式；推荐用 fieldset/legend 增强语义；required 可实现必填验证。如果您希望在网页中创建一组互…

程序猿
2025年12月23日
2000
好文分享

html5 js怎么加_html5用script标签内嵌或外链引入JS代码【添加】

在HTML5中执行JavaScript需通过script标签：一、内联编写于head或body中；二、外链引入.js文件并建议放body末尾或加defer；三、defer按序执行，async独立执行；四、可动态创建script元素插入执行。如果您希望在HTML5页面中执行JavaScript代码，…

程序猿
2025年12月23日
0000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000
好文分享

html5能否插入带表单的文档_html5表单文档嵌入与数据提交【步骤】

HTML5中无法直接嵌入外部带表单的HTML文档并原生提交；可行方案有四：一、用iframe嵌入，需同源或CORS支持，并用postMessage通信；二、用fetch+DOMParser动态加载表单片段并手动绑定事件；三、在当前页面直接编写表单，最规范且兼容性好；四、用JavaScript+fet…

程序猿
2025年12月23日
0000
html5怎么引用js_HTML5用外链或内嵌JS代码引用脚本【引用】

HTML5中执行JavaScript需通过外链或内嵌方式引入：一、外链用，支持defer/async；二、内嵌将代码写入间，推荐置于body底部；三、type属性默认可省略；四、模块化使用type=”module”支持ES6 import/export。 <img sr…

程序猿
好文分享 2025年12月23日
0000
好文分享

360怎么装html5_360浏览器默认支持HTML5无需额外安装设置【说明】

HTML5是网页标准，非独立软件，360浏览器7.0+已原生支持；需确认内核为Blink/Chromium、关闭兼容模式、禁用强制兼容策略、重置Flash插件、清除HTML5本地存储、检查系统Media Foundation组件。如果您在使用360浏览器时发现HTML5网页功能异常（如视频无法播放…

程序猿
2025年12月23日
0000