Pandas数据转换：多行多列条件合并为单行教程

程序猿 • 2025年12月14日 10:03:27 • 用户投稿 • 阅读 0

本教程详细介绍了如何使用Pandas高效地将DataFrame中多行多列的数据，根据特定条件（如关联位置值不为-1）合并到单一目标行中。文章通过示例数据和分步代码解析，演示了filter(), stack(), where(), dropna()等核心函数组合应用，帮助读者掌握处理复杂数据重塑与条件筛选的专业技巧，最终实现数据的高效规整。

1. 引言

在数据分析和处理过程中，我们经常会遇到需要从结构复杂的dataframe中提取特定信息并进行整合的场景。其中一个常见的挑战是，数据分散在多行多列中，并且只有满足特定条件的关联值才被认为是有效数据。本文将深入探讨如何利用pandas库的强大功能，高效地解决这类问题，将满足条件的多行多列数据合并成一个简洁的单行结果。

2. 问题描述与示例

假设我们有一个名为Table A的DataFrame，其中包含多对“Position X”和“Name X”列（例如，“Position A”与“Name A”是一对，“Position B”与“Name B”是一对，以此类推）。每对列中，“Position X”的值决定了“Name X”的有效性：只有当“Position X”不等于-1时，“Name X”的值才被视为有效。我们的目标是从Table A中提取所有有效的“Name”值，并将它们整合到一个名为Table B的单行DataFrame中。

当前表格 A (df)

Position A Name A Position B Name B Position C Name C Position D Name D Position E Name E

-1tortise-1monkey2coca cola-1slug-1rooster3sprite2coffee-1bird-1monkey-1ostrich-1nope-1nope-1fish5root beer1tea-1nope-1nope-1nope-1nope-1nope

期望表格 B (new_df)

Name A Name B Name C Name D Name E

spritecoffeecoca colaroot beertea

3. 解决方案：Pandas实现

解决此问题的核心思路是：首先将所有“Name”列和“Position”列分别进行堆叠（stack），形成长格式的Series；然后，利用“Position”Series作为布尔条件来筛选“Name”Series中的有效值；最后，将筛选后的结果重新塑形为目标单行DataFrame。

我们将通过以下步骤详细演示实现过程。

3.1 准备示例数据

首先，创建与Table A相符的Pandas DataFrame。

import pandas as pdimport numpy as np# 创建示例DataFramedata = {    'Position A': [-1, 3, -1, -1], 'Name A': ['tortise', 'sprite', 'nope', 'nope'],    'Position B': [-1, 2, -1, -1], 'Name B': ['monkey', 'coffee', 'nope', 'nope'],    'Position C': [2, -1, -1, -1], 'Name C': ['coca cola', 'bird', 'fish', 'nope'],    'Position D': [-1, -1, 5, -1], 'Name D': ['slug', 'monkey', 'root beer', 'nope'],    'Position E': [-1, -1, 1, -1], 'Name E': ['rooster', 'ostrich', 'tea', 'nope']}df = pd.DataFrame(data)print("原始DataFrame (df):")print(df)

3.2 步骤详解与代码实现

我们将通过链式操作来完成数据转换，每一步都构建在前面操作的基础上。

1. 提取并堆叠“Name”列

我们首先使用filter(like=’Name’)选择所有列名中包含“Name”的列，然后使用stack()将其从宽格式转换为长格式。stack()会生成一个MultiIndex Series，其中包含原始的行索引和列名作为新的索引级别。

# 提取并堆叠Name列stacked_names = df.filter(like='Name').stack()# print("n堆叠后的Name Series (stacked_names):")# print(stacked_names)

输出示例（部分）：

0  Name A      tortise   Name B       monkey   Name C    coca cola   Name D         slug   Name E      rooster1  Name A       sprite   Name B       coffee   Name C         bird   Name D       monkey   Name E      ostrich...

2. 提取并堆叠“Position”列作为条件

类似地，我们提取所有“Position”列并进行堆叠。然后，通过.ne(-1)（not equal to -1）生成一个布尔Series，指示哪些位置值不等于-1。.values将其转换为NumPy数组，以便与where()函数配合使用。

# 提取并堆叠Position列，生成布尔条件position_condition = df.filter(like='Position').stack().ne(-1).values# print("nPosition条件布尔数组 (position_condition):")# print(position_condition)

输出示例（部分）：

[False False  True False False  True  True False False False False False False  True  True False False False False False]

3. 应用条件筛选并清理无效值

使用where()函数将stacked_names中不满足条件（即position_condition为False）的值替换为NaN。接着，使用dropna()移除所有NaN值，只保留有效的“Name”数据。

# 应用条件筛选并移除NaNfiltered_names = stacked_names.where(position_condition).dropna()# print("n筛选并清理后的Name Series (filtered_names):")# print(filtered_names)

输出示例：

0  Name C    coca cola1  Name A       sprite   Name B       coffee2  Name D    root beer   Name E          teadtype: object

4. 整理索引

filtered_names的索引仍然是MultiIndex。droplevel(0)用于移除第一个索引级别（即原始行索引），只保留列名（例如“Name A”, “Name B”）。sort_index()确保列名按字母顺序排序，这对于最终DataFrame的列顺序至关重要。

# 整理索引cleaned_names = filtered_names.droplevel(0).sort_index()# print("n整理索引后的Name Series (cleaned_names):")# print(cleaned_names)

输出示例：

Name A       spriteName B       coffeeName C    coca colaName D    root beerName E          teadtype: object

5. 重塑为目标DataFrame

最后，使用to_frame()将Series转换为DataFrame，然后使用.T（转置）操作将其从单列多行转换为单行多列，从而得到我们期望的最终结果。

# 重塑为目标DataFramenew_df = cleaned_names.to_frame().T# print("n期望的DataFrame (new_df):")# print(new_df)

完整的解决方案代码

将上述步骤整合到一起，形成一个简洁的链式操作：

import pandas as pdimport numpy as np# 创建示例DataFramedata = {    'Position A': [-1, 3, -1, -1], 'Name A': ['tortise', 'sprite', 'nope', 'nope'],    'Position B': [-1, 2, -1, -1], 'Name B': ['monkey', 'coffee', 'nope', 'nope'],    'Position C': [2, -1, -1, -1], 'Name C': ['coca cola', 'bird', 'fish', 'nope'],    'Position D': [-1, -1, 5, -1], 'Name D': ['slug', 'monkey', 'root beer', 'nope'],    'Position E': [-1, -1, 1, -1], 'Name E': ['rooster', 'ostrich', 'tea', 'nope']}df = pd.DataFrame(data)print("原始DataFrame (df):")print(df)# 完整的解决方案代码new_df = (df.filter(like='Name').stack()          .where(df.filter(like='Position').stack().ne(-1).values)          .dropna()          .droplevel(0)          .sort_index()          .to_frame().T)print("n期望的DataFrame (new_df):")print(new_df)

输出结果

原始DataFrame (df):   Position A   Name A  Position B  Name B  Position C     Name C  Position D     Name D  Position E     Name E0          -1  tortise          -1  monkey           2  coca cola          -1       slug          -1    rooster1           3   sprite           2  coffee          -1       bird          -1     monkey          -1  ostrich2          -1     nope          -1    nope          -1       fish           5  root beer           1      tea3          -1     nope          -1    nope          -1       nope          -1       nope          -1     nope期望的DataFrame (new_df):   Name A  Name B     Name C     Name D Name E0  sprite  coffee  coca cola  root beer    tea

4. 注意事项与最佳实践

列命名约定： 本方法高度依赖于“Position X”和“Name X”这种成对且有规律的列命名模式。确保你的DataFrame列名具有一致性，以便filter(like=…)能正确选择目标列。如果列名模式不同，可能需要调整filter()的参数或使用其他列选择方法。条件灵活性： .ne(-1)可以根据实际需求替换为其他布尔条件，例如：.gt(0)：选择大于0的值。.isin([1, 2])：选择值在列表[1, 2]中的项。df.filter(like=’Position’).stack() > 0：直接进行数值比较。数据类型： 确保用于条件的“Position”列的数据类型是数值型（整数或浮点数），以便进行数值比较。如果它们是字符串，需要先进行类型转换。性能考量： 对于非常大的DataFrame，stack()操作会创建一个新的、通常更大的Series，这可能占用较多内存。然而，对于此类数据重塑和条件筛选任务，这种组合方法通常是Pandas中高效且表达力强的选择。索引管理： droplevel(0)和sort_index()是处理stack()操作后多级索引的关键步骤，确保最终结果的索引清晰且有序。

5. 总结

本教程展示了如何利用Pandas的强大功能，通过一系列链式操作，将分散在多行多列且满足特定条件的数据高效地合并到单一目标行中。通过组合使用filter(), stack(), where(), dropna(), droplevel(), sort_index()以及to_frame().T等函数，我们能够灵活地处理复杂的数据重塑和条件筛选任务。掌握这些技巧，将极大地提升你在数据清洗和预处理阶段的效率和能力。

以上就是Pandas数据转换：多行多列条件合并为单行教程的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1369894.html

red

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Pandas处理Excel单元格注释：移除或忽略注释内容

上一篇 2025年12月14日 10:03:26

如何使用Python进行内存管理和优化？

下一篇 2025年12月14日 10:03:33

Matplotlib 地图中多类型图例的创建与优化

本教程旨在解决matplotlib地图可视化中，如何在一个图例中同时展示颜色块（如区域分类）和自定义标记（如特定兴趣点）的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时，如何利用`matplotlib.lines.line2d`创建标记图例句柄，并将其与颜色块图例句柄合并，从而生成一…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

RichHandler与Rich Progress集成：解决显示冲突的教程

在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时，可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

程序猿
2026年5月10日
0000
用户投稿

使用 WebCodecs VideoDecoder 实现精确逐帧回退

本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时，实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳，可以避免渲染中间帧，从而提高用户体验。本文将提供详细的解决方案和示例代码，帮助开发者实现精确的视频帧控制。在使用 WebCodecs VideoDecod…

程序猿
2026年5月10日
0000
用户投稿

html5怎么画实线_HTML5用CSS border-style:solid画元素实线边框【绘制】

可通过CSS的border-style属性设为solid添加实线边框：一、内联样式用border:2px solid #000；二、内部样式表统一设置如div{border:1px solid #333}；三、外部CSS文件定义.my-box{border:3px solid red}并引入；四、单…

程序猿
2026年5月10日
2000
用户投稿

JS如何实现迭代器？迭代器协议

JavaScript中实现迭代器需遵循可迭代协议和迭代器协议，通过定义[Symbol.iterator]方法返回具备next()方法的迭代器对象，从而支持for…of和展开运算符；该机制统一了数据结构的遍历接口，实现惰性求值，适用于自定义对象、树、图及无限序列等复杂场景，提升代码通用性与…

程序猿
2026年5月10日
0000
用户投稿

使用 Pydantic v2 实现条件性必填字段

本文介绍了如何在 Pydantic v2 模型中实现条件性必填字段。通过自定义验证器，可以根据模型中其他字段的值来动态地控制某些字段是否为必填项，从而满足 API 交互中数据验证的复杂需求。本文提供了一个具体的示例，展示了如何确保模型中至少有一个字段被赋值。在 Pydantic v2 中，虽然没有…

程序猿
2026年5月10日
0000
用户投稿

如何讲html和css_讲解HTML与CSS结合使用基础【基础】

需将HTML与CSS结合使用以实现网页结构与样式的分离：HTML定义标题、段落等语义结构，CSS控制颜色、字体等外观；可通过内联样式、内部样式表或外部CSS文件引入样式，并利用类选择器和ID选择器精准应用。如果您希望网页不仅展示内容，还能具备基本的样式和结构布局，则需要将HTML与CSS结合使用。…

程序猿
2026年5月10日
1000
用户投稿

React组件中动态属性值的管理与同步：利用状态实现受控组件

本教程旨在解决react组件中动态属性值同步使用的问题。我们将探讨如何利用react的`usestate` hook来管理组件内部状态，从而实现一个属性的值动态地影响另一个属性，并构建出可预测、易于维护的受控组件。文章将通过具体代码示例，详细阐述从初始化状态到处理状态更新的完整过程，并强调受控组件在…

程序猿
2026年5月10日
0000
高通预热 2023 骁龙峰会：以AI为主题，10 月 25-26 日举行

【环球网科技综合报道】10月17日消息，高通今日对 2023 骁龙峰会进行了预热，本次大会将以 %ign%ignore_a_1%re_a_1% 为主题，届时骁龙 8 gen 3 处理器也很大可能在本届峰会亮相。在临近活动召开之日，相关业内人士也透露了高通骁龙8Gen3跑分及规格。据悉，高通骁龙8 …

程序猿
2026年5月10日 • 用户投稿
0000
CSS技巧：在复杂悬停效果中确保图像始终可见

本教程探讨如何在包含悬停效果的CSS卡片布局中，确保图像始终显示在最顶层而不被裁剪或遮挡。通过调整HTML结构，利用CSS的position和z-index属性，以及引入pointer-events，我们将解决图像被overflow: hidden和扩展叠加层遮盖的问题，实现复杂的视觉交互效果。在…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

从 JavaScript 获取 URL 并在 PHP DataGrid 中使用

本文档旨在指导开发者如何从 JavaScript 函数中获取 URL，并将其动态应用于 PHP DataGrid。通过前端 JavaScript 动态生成 API 地址，并将其传递给后端的 PHP DataGrid，实现数据根据用户会话动态加载。动态配置 DataGrid 的 URL 在构建动态 …

程序猿
2026年5月10日
0000
用户投稿

JavaScript 中使用多个 querySelector 更新页面元素

本文旨在讲解如何在 JavaScript 的 if 语句中使用多个 querySelector 来更新不同的页面元素，并提供示例代码和注意事项，帮助开发者理解并应用此技术。通过该方法，可以根据特定条件动态修改页面内容，提升用户体验。使用 querySelector 在 if 语句中更新多个元素在…

程序猿
2026年5月10日
1000
用户投稿

GolangWeb项目异常捕获与日志记录

答案：通过中间件使用defer和recover捕获panic，结合zap等结构化日志库记录请求链路信息，为每个请求生成trace ID，实现异常捕获与可追踪日志，提升系统稳定性与可观测性。在Go语言Web项目中，异常捕获与日志记录是保障系统稳定性和可维护性的关键环节。Go本身没有像其他语言那样的t…

程序猿
2026年5月10日
0000
用户投稿

基于两数组数据计算结果排序的 React 教程

本教程针对 React 应用中需要根据两个独立数组的数据计算结果进行排序的场景，提供了一种高效的解决方案。通过使用 JavaScript 的 `reduce` 和 `map` 方法，将两个数组根据唯一标识符进行合并，从而简化排序逻辑，提高代码的可读性和可维护性。避免了复杂的嵌套循环或同步迭代，提供了…

程序猿
2026年5月10日
0000
用户投稿

Golang如何优化日志写入性能_Golang日志写入与文件IO优化方法

使用缓冲、异步写入、高性能日志库和优化IO策略提升Golang日志性能，推荐zap+异步缓冲+SSD组合以平衡实时性、可靠性与高并发需求。在高并发场景下，Golang程序的日志写入可能成为性能瓶颈。频繁的文件IO操作不仅影响响应速度，还可能导致系统负载升高。要提升日志写入性能，不能只依赖简单的fm…

程序猿
2026年5月10日
0000
用户投稿

ReCAPTCHA V3低分处理策略：结合V3与V2实现智能风险控制与用户验证

本文旨在解决ReCAPTCHA V3在低分情况下无法直接触发验证码挑战的问题。我们将探讨如何通过巧妙地结合ReCAPTCHA V3的无感评分机制与ReCAPTCHA V2的交互式挑战，实现一套既能有效阻挡机器人流量，又能最大限度减少对合法用户干扰的智能验证系统。文章将详细阐述其实现原理、前端与后端集…

程序猿
2026年5月10日
1000
用户投稿

控制HTML Canvas颜色空间输出24位深度TIFF图像

本教程详细介绍了如何在web前端环境中，特别是结合`html2canvas`和`canvas-to-tiff`库时，通过明确设置html canvas的颜色空间为`srgb`，从而确保输出24位深度的tiff图像。文章将提供具体的javascript代码示例，并解释其原理，帮助开发者解决canvas…

程序猿
2026年5月10日
1000
用户投稿

Python中如何实现过滤器模式？

在Python中实现过滤器模式的过程中，我们可以利用Python的灵活性来创建一个既简单又强大的过滤系统。让我们从回答这个问题开始：Python中如何实现过滤器模式？在Python中，过滤器模式可以通过定义一系列的过滤器类来实现，这些类能够根据特定条件对对象进行过滤。Python的函数式编程特性，…

程序猿
2026年5月10日
1000
用户投稿

深入理解 Laravel Session::put：避免常见陷阱与实现表单限流

本文旨在深入探讨 laravel 框架中 `session::put` 方法的正确用法及其常见误区。针对用户在实现表单提交限流时遇到的问题，详细阐述了 `session::put` 必须提供键值对的原理，并提供了如何在控制器中利用会话机制有效防止重复提交的实战代码示例。通过本文，读者将掌握 lara…

程序猿
2026年5月10日
0000
用户投稿

解决React中按钮点击不显示弹出表单的问题：状态管理与语法修正

本教程旨在解决react应用中点击按钮后弹出表单未能正确渲染的问题。核心在于识别并修正代码中的语法错误以及未定义的react状态管理函数。我们将详细探讨如何使用`usestate`等react hooks来声明和管理组件状态，确保交互逻辑的正确实现，并提供结构清晰的代码示例，帮助开发者构建功能完善的…

程序猿
2026年5月10日
0000