高效地将变长列表数据整合到Pandas DataFrame中：避免性能碎片化

程序猿 • 2025年12月14日 20:58:19 • 好文分享 • 阅读 0

本文旨在提供一种高效且健壮的方法，用于将具有不同长度的列表数据作为新列添加到现有pandas dataframe中，特别是在循环场景下避免dataframe碎片化带来的性能问题。通过巧妙结合使用`itertools.zip_longest`进行数据填充和`pd.concat`进行高效合并，本教程将展示如何灵活处理变长数据，确保数据整合的效率和准确性。

在数据分析和处理中，我们经常需要将新的数据列动态地添加到现有的Pandas DataFrame中。然而，当这些新数据来源于列表，并且其内部子列表长度不一致时，直接操作可能会遇到挑战，尤其是在循环中重复添加大量列时，可能导致DataFrame碎片化，从而引发性能警告甚至错误。本教程将详细介绍如何优雅地解决这一问题。

挑战：变长列表与DataFrame的整合

假设我们有以下两组数据：

list1: 包含新列的名称，例如 [‘col1’, ‘col2’, ‘col3’, ‘col4’]。list2: 包含对应新列的值，其内部子列表的长度可能不同，例如 [[1, 2, 3], [2, 3], [1, 8, 4, 3], [22, 35, 32], [65], [2, 45, 55]]。

我们还有一个初始的Pandas DataFrame df：

import pandas as pddf = pd.DataFrame([    ['Alex', 33, 'Male'],     ['Marly', 28, 'Female'],     ['Charlie', 30, 'Female'],     ['Mimi', 37, 'Female'],     ['James', 44, 'Male'],     ['Jone', 25, 'Male']], columns=['Name', 'Age', 'Gender'])print("原始DataFrame:")print(df)

期望的结果是，将list1作为新列名，list2作为对应行的值，添加到df中，其中list2中较短的子列表应使用默认值（例如0）进行填充，以匹配list1的长度。

      Name  Age  Gender  col1  col2  col3  col40     Alex   33    Male     1     2     3     01    Marly   28  Female     2     3     0     02  Charlie   30  Female     1     8     4     33     Mimi   37  Female    22    35    32     04    James   44    Male    65     0     0     05     Jone   25    Male     2    45    55     0

传统方法的问题

一种直观但可能效率不高的方法是尝试直接将list2转换为DataFrame并赋值：

# 假设 list2 已经经过处理，使其内部子列表长度一致# df[list1] = pd.DataFrame(list2, index=df.index)

然而，这种方法存在几个问题：

长度不匹配: 如果list2中的子列表长度与list1的长度不一致，或者list2的行数与df的行数不一致，直接赋值会报错。性能碎片化: 更重要的是，当这种操作在循环中频繁执行，每次都添加新列时，Pandas DataFrame可能会因为内部内存重分配而变得“碎片化”，导致性能显著下降，并可能触发Performance warning DataFrame is highly fragmented警告。

为了避免这些问题，我们需要一个更健壮和高效的解决方案。

解决方案：结合itertools.zip_longest与pd.concat

该解决方案的核心思想是：

使用itertools.zip_longest对list2中的子列表进行填充，使其所有子列表的长度与所需列数（即list1的长度）保持一致。将处理后的数据转换为适合构建新DataFrame的字典列表。利用pd.concat将新生成的DataFrame与原始DataFrame进行横向合并，这是Pandas中推荐的添加多列的高效方式。

步骤详解与示例代码

首先，导入必要的库和定义初始数据：

from itertools import zip_longestimport pandas as pd# 原始数据list1 = ['col1', 'col2', 'col3', 'col4']list2 = [[1, 2, 3], [2, 3], [1, 8, 4, 3], [22, 35, 32], [65], [2, 45, 55]]df = pd.DataFrame([    ['Alex', 33, 'Male'],     ['Marly', 28, 'Female'],     ['Charlie', 30, 'Female'],     ['Mimi', 37, 'Female'],     ['James', 44, 'Male'],     ['Jone', 25, 'Male']], columns=['Name', 'Age', 'Gender'])

接下来是核心处理逻辑：

# 1. 使用 zip_longest 填充 list2 中的子列表# 这一步的目的是确保 list2 中的每个子列表都具有相同的长度，# 且该长度与 list1 (列名) 的长度匹配，不足部分用 fillvalue 填充。# 具体操作：#   - zip_longest(*list2, fillvalue=0) 将 list2 视为多行数据，#     进行“转置”并填充，例如 [1,2,3], [2,3] 会变成 (1,2), (2,3), (3,0)。#   - 外层的 zip(*...) 再次进行“转置”，将填充后的数据恢复到#     原始的“行”结构，但现在所有行都已补齐到最大长度。# 示例：# list2_padded = [[1, 2, 3, 0], [2, 3, 0, 0], [1, 8, 4, 3], [22, 35, 32, 0], [65, 0, 0, 0], [2, 45, 55, 0]]list2_padded = list(zip(*zip_longest(*list2, fillvalue=0)))# 2. 将填充后的数据与列名 list1 结合，创建字典列表# 对于 list2_padded 中的每一行 (vals)，将其与 list1 (列名) 进行 zip，# 然后转换为字典，形成 {col_name: value} 的结构。# 示例：# [{'col1': 1, 'col2': 2, 'col3': 3, 'col4': 0}, ...]new_data_dicts = [dict(zip(list1, vals)) for vals in list2_padded]# 3. 从字典列表创建新的 DataFramenew_df_cols = pd.DataFrame(new_data_dicts)# 4. 使用 pd.concat 将新旧 DataFrame 横向合并# axis=1 表示按列合并。这是添加新列的高效方式，避免了碎片化。out = pd.concat([df, new_df_cols], axis=1)print("n整合后的DataFrame:")print(out)

代码输出：

原始DataFrame:     Name  Age  Gender0    Alex   33    Male1   Marly   28  Female2  Charlie   30  Female3     Mimi   37  Female4   James   44    Male5    Jone   25    Male整合后的DataFrame:      Name  Age  Gender  col1  col2  col3  col40     Alex   33    Male     1     2     3     01    Marly   28  Female     2     3     0     02  Charlie   30  Female     1     8     4     33     Mimi   37  Female    22    35    32     04    James   44    Male    65     0     0     05     Jone   25    Male     2    45    55     0

注意事项与总结

fillvalue的选择: 在zip_longest中，fillvalue参数用于填充较短序列的缺失值。根据你的数据类型和业务需求，可以选择合适的填充值（例如0、None、空字符串等）。如果新列可能包含非数值数据，则需要考虑填充值的数据类型兼容性。效率提升: 使用pd.concat是Pandas中推荐的合并DataFrame的方法，尤其是在添加多列或多行时。它通常比在循环中逐列赋值更高效，因为它会一次性构建新的DataFrame，而不是频繁地修改现有DataFrame的内存结构。这对于在循环中动态生成和添加大量列的场景尤为重要，能够有效避免性能碎片化警告。数据类型: 经过zip_longest填充后，如果fillvalue与原始数据类型不一致，新生成的DataFrame列的数据类型可能会变为更通用的类型（例如，整数和None混合可能导致对象类型）。如有需要，可以在合并后使用astype()进行类型转换。通用性: 此方法不仅适用于初始DataFrame，也适用于在循环中动态生成list1和list2的场景。每次循环迭代时，都可以使用这种方式生成新的列数据DataFrame，然后与主DataFrame进行合并，从而保持代码的简洁性和执行效率。

通过上述方法，我们可以优雅且高效地将变长列表数据整合到Pandas DataFrame中，同时避免常见的性能陷阱，确保数据处理流程的顺畅和可靠。

以上就是高效地将变长列表数据整合到Pandas DataFrame中：避免性能碎片化的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1379806.html

数据恢复

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

在Python中让自定义类像列表、元组或字典一样工作

上一篇 2025年12月14日 20:58:15

解决Angular与Flask应用中用户个性化预订数据展示问题

下一篇 2025年12月14日 20:58:21

好文分享

html中如何重置_HTML表单重置（reset）功能与数据清空方法

HTML表单重置是恢复初始值，清空则是设为空值；reset按钮恢复加载时的状态，JavaScript可实现彻底清空并灵活控制字段状态。 HTML表单的重置，说白了，就是把表单里的数据恢复到某个初始状态。最直接的方式是利用HTML自带的reset类型按钮，它能让表单元素回到它们最初被加载时的值。但很多…

程序猿
2025年12月23日
0000
好文分享

HTML数据如何实现数据恢复 HTML数据灾难恢复的应急预案

答案：HTML数据恢复关键在于备份与响应。需建立本地和云备份、版本控制及自动备份机制；发生故障时应隔离系统、确认备份点并快速还原文件；结合后端数据同步恢复，重建静态缓存，并启用维护页；日常须实施变更监控、权限管控和恢复演练，确保流程可靠有效。当HTML数据因误删、系统崩溃或网络攻击遭到破坏时，恢复…

程序猿
2025年12月23日
0000
好文分享

在Django中实现软删除的全面指南

本教程详细介绍了如何在Django应用中实现软删除功能，以替代默认的硬删除。文章首先阐述了Django默认删除行为的局限性，然后提供了两种实现软删除的主要策略：手动添加删除标志字段并定制管理器，以及推荐使用django-safedelete第三方库。通过具体的代码示例和最佳实践，帮助开发者高效、安全…

程序猿
2025年12月22日
0000
好文分享

在Django中实现软删除：策略与实践

本文旨在探讨Django框架中实现软删除的策略与实践。默认情况下，Django ORM执行的是硬删除，即永久从数据库中移除数据。为实现数据保留、审计或恢复等需求，我们需采用软删除机制。文章将详细介绍通过自定义模型和管理器或利用第三方库（如django-safedelete）来实现这一功能，并提供具体…

程序猿
2025年12月22日
0000
好文分享

Ionic 应用在浏览器刷新时状态持久化策略

当 ionic 应用在浏览器中被刷新时，浏览器会执行完整的页面重载，导致应用状态和数据丢失。本文旨在阐明为何无法阻止浏览器进行全面重载，并提供一个专业的解决方案：利用 capacitor preferences 等客户端存储机制来持久化关键应用状态和数据，确保在浏览器刷新后也能恢复应用到预期状态，从…

程序猿
2025年12月21日
1000
好文分享

JavaScript 历史记录：History API 实现无刷新页面跳转

使用History API可实现单页应用无刷新跳转。通过pushState添加历史记录并更新URL，replaceState修改当前记录而不新增条目，onpopstate监听前进后退操作，结合动态内容加载即可同步页面状态与地址栏，支持浏览器导航，提升用户体验。单页应用（SPA）中，页面内容更新时不…

程序猿
2025年12月21日
0000
好文分享

IndexedDB keyPath中特殊字符的处理策略与最佳实践

本文深入探讨IndexedDB keyPath属性在处理包含特殊字符的键名时所面临的限制。根据W3C规范，keyPath仅支持符合JavaScript标识符命名规则的键。文章将详细阐述为何直接使用特殊字符会失败，并提供一种有效的数据预处理（数据重塑）作为解决方案，以确保索引能够正确创建和工作，同时探…

程序猿
2025年12月20日
1000
好文分享

JavaScript中的JSON序列化与反序列化有哪些高级技巧？

掌握JSON序列化与反序列化的高级技巧，能有效处理复杂数据。1. 使用replacer函数可过滤敏感字段（如password）、转换日期为ISO格式，并预处理循环引用，避免序列化错误。2. reviver函数在反序列化时可自动将日期字符串还原为Date对象，或重建类实例，提升数据恢复精度。3. 针对…

程序猿
2025年12月20日
0000
好文分享

C++异常处理与标准库算法结合

将C++异常处理与标准库算法结合需理解异常安全保证、资源管理及用户操作行为。1. 在算法外使用try-catch捕获异常，确保程序不因内部抛出异常而崩溃；2. 自定义谓词或Lambda应采用RAII管理资源，防止异常导致泄露；3. 明确异常类型选择，优先使用标准异常并提供清晰错误信息；4. 理解算法…

程序猿
2025年12月18日
0000
好文分享

C++如何实现记账软件基本功能

C++要实现记账软件的基本功能，核心在于建立清晰的数据结构来表示交易，然后通过文件I/O实现数据的持久化，并围绕这些数据结构构建增删改查（CRUD）的操作逻辑，最终通过一个简单的命令行界面与用户交互。这听起来可能有点像在搭积木，但每一块都得严丝合缝，才能让整个系统跑起来。解决方案在我看来，构建一…

程序猿
2025年12月18日
0000
好文分享

什么是数据库快照？在C#中如何用它进行数据恢复？

数据库快照是只读静态视图，利用稀疏文件和写时复制机制捕获特定时间点的数据状态，创建时速度快且占用空间小，通过记录原始数据页变化实现快速恢复。在C#中通过执行T-SQL命令创建和恢复快照，适用于防止人为错误或测试回滚，但不替代备份，仅支持SQL Server Enterprise版，恢复时会阻塞应用并…

程序猿
2025年12月17日
0000
好文分享

什么是数据库的时态表？在C#中如何查询历史数据？

启用时态表需在SQL Server中创建带时间周期和系统版本控制的表，如CREATE TABLE Employees含ValidFrom、ValidTo及PERIOD FOR SYSTEM_TIME，并设置SYSTEM_VERSIONING=ON；在C#中通过Entity Framework Cor…

程序猿
2025年12月17日
1000
好文分享

深入理解Go语言JSON编解码：Marshal机制详解

本文旨在深入解析go语言中`encoding/json`包的`marshal`机制。`marshal`是将go语言内存中的数据结构（如结构体、切片、映射等）转换为适合存储或网络传输的json格式字节序列的过程，即数据序列化。掌握这一机制对于go应用程序与外部系统进行数据交换至关重要。什么是Mars…

程序猿
2025年12月16日
0000
好文分享

GolangUDP通信基础与数据发送示例

Golang实现UDP通信适用于实时性高、允许丢包的场景，如游戏和直播。代码展示了客户端与服务器间的简单通信：服务器监听8080端口接收数据并响应，客户端发送消息并设置超时等待回复。应对UDP丢包，可采用应用层重传、前向纠错、选择性重传、流量控制和QoS等策略。性能优化包括调整缓冲区大小、并发处理、…

程序猿
2025年12月15日
0000
好文分享

Python csv 模块处理列表数据：深入理解 str() 转换机制

当python列表作为元素写入csv文件时，`csv`模块会默认调用列表的`str()`方法将其转换为字符串形式。这意味着列表的文本表示，包括方括号和引号，将直接存储在csv单元格中。这种行为是`csv`模块处理非字符串数据的标准方式，确保所有数据在写入前都被统一序列化为文本。 Python csv…

程序猿
2025年12月15日
0000
好文分享

高效处理变长列表数据并合并至Pandas DataFrame的教程

本教程旨在解决将长度不一的列表数据作为新列高效地添加到现有pandas dataframe中的问题，尤其是在循环场景下避免性能瓶颈。我们将探讨如何利用python的`itertools.zip_longest`函数处理变长列表，并结合pandas的dataframe构造与`concat`方法，实现数…

程序猿
2025年12月14日
0000
好文分享

高效地将变长列表数据整合到Pandas DataFrame

本文旨在提供一种高效且避免DataFrame碎片化的方法，将包含不同长度子列表的数据以及对应的列名列表整合到现有的Pandas DataFrame中。我们将利用Python的`itertools.zip_longest`函数处理变长数据，并通过巧妙的转置与字典构建，最终使用`pd.concat`将新…

程序猿
2025年12月14日
0000
好文分享

深入 S3 对象版本回滚：克服 Prefix 限制与推荐的复制方案

本文深入探讨了 Amazon S3 对象版本回滚的效率优化与策略选择。针对 S3 API 在版本过滤时仅支持前缀（Prefix）而非精确键（Key）的限制，文章分析了基于删除的回滚方法的局限性，并重点推荐了一种更高效、更安全的数据恢复策略：通过复制目标历史版本来使其成为当前版本，从而避免数据丢失并提…

程序猿
2025年12月14日
0000
好文分享

S3对象版本回滚：优化效率与安全实践

本文探讨Amazon S3对象版本回滚的效率问题，特别是S3 API在版本过滤时仅支持前缀而非精确键的限制。文章分析了现有Python代码的实现方式，并提出优化建议，包括利用批量删除操作，并重点介绍了一种更安全、高效的回滚策略：通过复制目标历史版本来恢复，而非删除后续版本，从而避免数据丢失风险并提升…

程序猿
2025年12月14日
0000
好文分享

S3对象版本回滚：精确键过滤与高效策略

本文探讨S3对象版本回滚中精确键过滤的挑战与解决方案。由于Boto3的filter方法仅支持Prefix，我们展示了如何在Python中进行二次过滤以确保精确匹配。同时，文章提出了通过将目标版本复制为当前版本的高效替代策略，避免数据丢失并简化回滚操作，提升S3版本管理的灵活性和安全性。 S3对象版本…

程序猿
2025年12月14日
0000