使用 Pandas 将多行多列数据合并为单行

使用 pandas 将多行多列数据合并为单行

本文旨在介绍如何使用 Pandas 库将 DataFrame 中具有对应关系的多个 Position/Name 列合并为单行,并根据 Position 列的值筛选出有效数据。通过 stack、where、dropna 等 Pandas 函数的组合运用,可以高效地实现数据转换和清洗,最终得到目标格式的数据。

数据准备

首先,我们需要创建一个 Pandas DataFrame,模拟原始数据。以下是一个示例:

import pandas as pddata = {'Position A': [-1, 3, -1, -1],        'Name A': ['tortise', 'sprite', 'nope', 'nope'],        'Position B': [-1, 2, -1, -1],        'Name B': ['monkey', 'coffee', 'nope', 'nope'],        'Position C': [2, -1, -1, -1],        'Name C': ['coca cola', 'bird', 'fish', 'nope'],        'Position D': [-1, -1, 5, -1],        'Name D': ['slug', 'monkey', 'root beer', 'nope'],        'Position E': [-1, -1, 1, -1],        'Name E': ['rooster', 'ostrich', 'tea', 'nope']}df = pd.DataFrame(data)print(df)

这段代码创建了一个名为 df 的 DataFrame,包含了 Position 和 Name 列,模拟了原始数据。

数据转换

核心思路是使用 stack 函数将 DataFrame 转换为 Series,然后根据 Position 列的值进行筛选,最后再将 Series 转换回 DataFrame。

new_df = (df.filter(like='Name').stack()          .where(df.filter(like='Position').stack().ne(-1).values)          .dropna().droplevel(0).sort_index().to_frame().T)print(new_df)

这段代码主要做了以下几件事:

df.filter(like=’Name’): 筛选出包含 ‘Name’ 的列。.stack(): 将筛选出的列堆叠成一个 Series。df.filter(like=’Position’).stack().ne(-1).values: 筛选出包含 ‘Position’ 的列,堆叠成 Series,并判断值是否不等于 -1,将结果转换为 Numpy 数组。.where(…): 根据 Position 列的条件,保留 Name 列中满足条件的值,否则设置为 NaN。.dropna(): 移除 NaN 值。.droplevel(0): 移除最外层的索引。.sort_index(): 对索引进行排序。.to_frame().T: 将 Series 转换为 DataFrame,并转置。

结果展示

运行上述代码后,将会得到以下结果:

    Name A   Name B      Name C     Name D  Name E0   sprite   coffee   coca cola  root beer     tea

这正是我们期望的结果,将多行多列的数据合并为了单行,并根据 Position 列的值进行了筛选。

注意事项

确保 Position 和 Name 列的对应关系正确。可以根据实际情况调整筛选条件,例如,将 -1 替换为其他值。如果数据量很大,可以考虑使用更高效的 Pandas 函数,例如 apply。

总结

本文介绍了如何使用 Pandas 将 DataFrame 中具有对应关系的多个 Position/Name 列合并为单行,并根据 Position 列的值筛选出有效数据。通过 stack、where、dropna 等 Pandas 函数的组合运用,可以高效地实现数据转换和清洗。这种方法可以应用于各种需要将多行多列数据合并为单行的场景,例如,数据清洗、数据转换、数据分析等。掌握这种方法可以帮助你更高效地处理数据,提高工作效率。

以上就是使用 Pandas 将多行多列数据合并为单行的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1369910.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 10:04:22
下一篇 2025年12月14日 10:04:27

相关推荐

  • 解决Pandas读取ODS/Excel文件时单元格注释与内容混淆问题

    当使用Pandas读取含有单元格注释(如ODS或Excel文件中的“插入注释”)的数据时,可能会遇到注释内容与实际单元格数据被错误拼接的问题,导致数据污染。本教程将深入探讨这一现象,并提供一种实用的后处理方法,通过字符串切片技术精准剥离混淆的注释前缀,从而恢复纯净的单元格内容,确保数据准确性。 理解…

    2025年12月14日
    000
  • 如何使用Python处理CSV和Excel文件?

    答案:Python处理CSV和Excel文件最直接高效的方式是使用pandas库,它提供DataFrame结构简化数据操作。1. 读取文件时,pd.read_csv()和pd.read_excel()可加载数据,配合try-except处理文件缺失或读取异常;支持指定sheet_name读取特定工作…

    2025年12月14日
    000
  • 如何实现二叉树的遍历?

    答案是二叉树遍历分为前序、中序、后序和层序四种,分别采用递归或迭代实现,用于系统访问节点,处理空节点需加判断,广泛应用于表达式求值、序列化、LCA查找等场景。 二叉树的遍历,说白了,就是按照某种特定的规则,把树上的每一个节点都“走”一遍,访问一遍。最核心的无非是三种深度优先遍历(前序、中序、后序)和…

    2025年12月14日
    000
  • Flask中的蓝图(Blueprint)有什么作用?

    蓝图是Flask中用于模块化应用的工具,通过将功能拆分为独立组件(如用户认证、商品管理等),实现代码的可维护性和可重用性;每个蓝图拥有自己的路由、模板和静态文件,并可通过URL前缀隔离命名空间,在主应用中注册后生效,避免代码耦合与冲突。 蓝图在Flask中,可以理解为一种组织大型Flask应用的方式…

    2025年12月14日
    000
  • 什么是Celery?如何使用它实现异步任务?

    Celery适用于处理耗时任务,如发送邮件、处理视频等,通过消息队列实现异步执行和负载均衡;使用Flower可监控任务状态,支持重试、错误处理和死信队列应对任务失败。 Celery是一个强大的分布式任务队列,简单来说,它让你能够把一些耗时的操作(比如发送邮件、处理上传的视频)放到后台去执行,而不用阻…

    2025年12月14日
    000
  • 使用 PyPy、Cython 或 Numba 提升代码性能

    PyPy、Cython和Numba是三种提升Python性能的有效工具。PyPy通过JIT编译加速纯Python代码,适合CPU密集型任务且无需修改代码;Cython通过类型声明将Python代码编译为C代码,适用于精细化性能优化和C库集成;Numba利用@jit装饰器对数值计算进行JIT编译,特别…

    2025年12月14日
    000
  • 什么是 WSGI 和 ASGI?它们有何不同?

    ASGI解决了WSGI在实时通信、高并发和I/O效率上的局限,通过异步非阻塞模式支持WebSocket和高并发连接,适用于现代实时Web应用,而WSGI适用于传统同步请求响应场景。 WSGI(Web Server Gateway Interface)和 ASGI(Asynchronous Serve…

    2025年12月14日
    000
  • 如何扁平化一个嵌套列表?

    答案是基于栈的迭代方法最具鲁棒性,它通过显式维护栈结构避免递归深度限制,能稳定处理任意深度的嵌套列表,尤其适合生产环境中深度不确定的复杂数据结构。 扁平化嵌套列表,简单来说,就是把一个包含其他列表的列表,转换成一个只有单一层级元素的列表。这就像把一堆装了小盒子的箱子,最后只留下所有散落的小物件,不再…

    2025年12月14日
    000
  • python -X importtime 性能开销分析与生产环境应用

    本文深入探讨了 python -X importtime 命令的性能开销。通过实际测量,我们发现其引入的额外执行时间通常微乎其微(例如,在测试场景中约为30毫秒),这表明它是一个可接受的工具,适用于在生产环境中监测和优化Python模块导入性能,以识别不必要的导入并提升应用启动速度。 引言:理解 p…

    2025年12月14日
    000
  • 如何理解Python的装饰器并实现一个简单的日志装饰器?

    装饰器是Python中用于扩展函数或类行为的语法糖,通过包装原函数添加日志、性能测试、权限验证等功能而不修改其源码。其核心在于函数是一等对象,可作为参数传递和返回。实现日志装饰器需定义接收函数的外层函数,内部创建包装函数执行额外逻辑后调用原函数,并用 @functools.wraps 保留原函数元信…

    2025年12月14日
    000
  • 使用 Elasticsearch 实现全文搜索功能

    倒排索引是核心。Elasticsearch通过倒排索引实现高效全文搜索,支持分片与副本处理大规模数据,结合分析器、查询DSL及性能优化策略提升搜索效率和准确性。 Elasticsearch实现全文搜索,关键在于其强大的倒排索引机制,能够高效地将文档内容进行分词并建立索引,从而实现快速的搜索。 倒排索…

    2025年12月14日
    000
  • 列表(List)和元组(Tuple)的主要区别是什么?

    列表可变,适合动态数据;元组不可变,确保数据安全,可用于字典键。 列表(List)和元组(Tuple)在Python中都是用来存储一系列有序项目的集合,它们最核心、也最根本的区别在于可变性。简单来说,列表是可变的(mutable),这意味着你可以在创建之后随意添加、删除或修改其中的元素;而元组是不可…

    2025年12月14日
    000
  • 构建可伸缩的Python计算器:动态处理多用户输入

    本教程将指导您如何构建一个可伸伸缩的Python计算器,使其能够根据用户指定数量的数字进行计算,而非局限于固定数量的输入。我们将重点介绍如何利用循环结构动态收集用户输入的多个数值,并通过functools.reduce高效执行聚合运算,从而实现灵活且用户友好的计算功能。 1. 传统计算器的局限性与可…

    2025年12月14日
    000
  • 什么是微服务?如何用Python构建微服务?

    微服务通过拆分应用提升灵活性和扩展性,适合复杂系统与独立团队协作,但带来分布式复杂性。Python凭借FastAPI等框架和丰富生态,能高效构建微服务,适用于IO密集型、快速迭代场景,配合容器化、服务发现、事件驱动等策略应对挑战,是微服务架构中高效且实用的技术选择。 微服务,在我看来,就是把一个大而…

    2025年12月14日
    000
  • python -X importtime 的性能开销分析与生产环境应用实践

    本文深入探讨了 python -X importtime 命令的性能开销,该命令旨在帮助开发者分析Python模块的导入时间。通过实际测试,我们发现其通常只会为程序总执行时间增加数十毫秒的额外开销。鉴于此,在大多数场景下,尤其是在生产环境中用于监控和优化模块导入性能时,这种开销被认为是微不足道的,其…

    2025年12月14日
    000
  • 如何使用Python操作Redis/Memcached?

    答案:Python操作Redis和Memcached需使用redis-py和python-memcached库,通过连接池、管道、序列化优化性能,Redis适合复杂数据结构与持久化场景,Memcached适用于高性能键值缓存,高可用需结合哨兵、集群或客户端分片。 在Python中操作Redis和Me…

    2025年12月14日
    000
  • 请解释*args和**kwargs的作用与区别。

    *args和**kwargs允许函数接收可变数量的参数,前者用于传递非关键字参数,后者用于传递关键字参数。它们的主要区别在于,*args将传入的参数打包成一个元组,而**kwargs将参数打包成一个字典。 *args和**kwargs是Python中处理函数参数的强大工具,它们让函数能够处理不确定数…

    2025年12月14日
    000
  • 什么是闭包(Closure)?它有哪些典型用途?

    闭包是函数与其词法环境的组合,使函数能访问并记住其外部变量,即使在外部函数执行完毕后依然保持引用,从而实现数据私有化、柯里化、事件处理等高级功能,但也需注意内存泄漏和性能开销等问题。 闭包,简单来说,就是一个函数和它被创建时所处的词法环境的组合。这意味着,即使这个函数在它定义时的作用域之外被执行,它…

    2025年12月14日
    000
  • 如何实现一个自定义的迭代器?

    实现自定义迭代器需定义__iter__和__next__方法,__iter__返回self,__next__返回下一个元素并在结束时抛出StopIteration异常,通过维护内部状态控制遍历过程,如斐波那契数列或二叉树深度优先遍历,还可实现__reversed__方法支持反向迭代,提升数据遍历的灵…

    2025年12月14日
    000
  • 常用内置函数:map、filter、reduce 的用法

    map、filter和reduce是Python中处理可迭代对象的核心函数式编程工具。map用于对每个元素应用函数进行转换,filter根据条件筛选元素,reduce则将元素累积计算为单一结果。它们返回迭代器,支持惰性求值,适合构建高效的数据处理管道。相较于列表推导式,它们在逻辑复杂或需函数复用时更…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信