Pandas 数据聚合优化：利用 Pivot 提升效率与代码简洁性

程序猿 • 2025年12月14日 10:47:23 • 用户投稿 • 阅读 0

本文旨在解决使用 Pandas 进行数据聚合时，因频繁的筛选和合并操作导致的冗余代码问题。我们将介绍如何利用 Pandas 的 pivot 函数高效重塑数据，并通过简洁的代码实现复杂的统计计算，从而显著提升数据处理效率和代码可维护性，避免不必要的中间 DataFrame。

传统数据聚合方法的痛点

在数据分析工作中，我们经常需要从原始数据集中提取特定子集，进行计算，然后将结果合并。例如，根据不同的条件（如 regions 和 n）筛选数据，计算特定指标（如 length），再将这些结果通过 merge 操作组合起来。这种方法虽然能达到目的，但在实际操作中往往面临以下问题：

代码冗长且重复： 每次筛选和计算都需要单独的代码块，当需要处理的组合条件增多时，代码量会急剧膨胀。效率低下： 频繁创建中间 DataFrame 并执行 merge 操作，尤其是在处理百万级别甚至更大数据量时，会带来显著的性能开销。可读性差： 大量的筛选和合并逻辑使得代码难以理解，增加了维护成本。易出错： 重复的代码模式更容易引入复制粘贴错误，导致结果不准确。

以下是原始问题中展示的示例代码片段，它清晰地体现了这种重复性：

# 原始的重复筛选和合并操作示例df_cap_N90 = df_stats[(df_stats['N'] == 90) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])df_cap_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])df_all_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'all')     ].drop(columns=['regions', 'N'])df_summ_cap_N50_all_N50 = pd.merge(df_cap_N50, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N50', '_all_N50'))df_summ_cap_N50_all_N50['cap_N50_all_N50'] = (df_summ_cap_N50_all_N50['length_cap_N50'] -                                              df_summ_cap_N50_all_N50['length_all_N50'])df_summ_cap_N90_all_N50 = pd.merge(df_cap_N90, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N90', '_all_N50'))df_summ_cap_N90_all_N50['cap_N90_all_N50'] = df_summ_cap_N90_all_N50['length_cap_N90'] - df_summ_cap_N90_all_N50['length_all_N50']df_summ = pd.merge(df_summ_cap_N50_all_N50.drop(columns=['length_cap_N50', 'length_all_N50']),                   df_summ_cap_N90_all_N50.drop(columns=['length_cap_N90', 'length_all_N50']),                   on='enzyme', how='inner')

Pandas pivot 函数：数据重塑的利器

为了解决上述问题，Pandas 提供了 pivot 函数，它能够将“长格式”数据（即多个变量的值存储在同一列中，通过其他列标识其类型）转换为“宽格式”数据（即每个变量类型拥有独立的列）。这种重塑操作能极大地简化后续的计算逻辑。

pivot 函数的核心参数包括：

index: 用于创建新 DataFrame 的行索引的列。columns: 用于创建新 DataFrame 的列索引的列（可以是一个列表，生成多级列索引）。values: 用于填充新 DataFrame 单元格的值的列。

示例数据准备

首先，我们加载并查看原始数据：

import ioimport pandas as pdTESTDATA="""enzyme  regions   N   lengthAaaI    all       10  238045AaaI    all       20  170393AaaI    all       30  131782AaaI    all       40  103790AaaI    all       50  81246AaaI    all       60  62469AaaI    all       70  46080AaaI    all       80  31340AaaI    all       90  17188AaaI    captured  10  292735AaaI    captured  20  229824AaaI    captured  30  193605AaaI    captured  40  163710AaaI    captured  50  138271AaaI    captured  60  116122AaaI    captured  70  95615AaaI    captured  80  73317AaaI    captured  90  50316AagI    all       10  88337AagI    all       20  19144AagI    all       30  11030AagI    all       40  8093AagI    all       50  6394AagI    all       60  4991AagI    all       70  3813AagI    all       80  2759AagI    all       90  1666AagI    captured  10  34463AagI    captured  20  19220AagI    captured  30  15389AagI    captured  40  12818AagI    captured  50  10923AagI    captured  60  9261AagI    captured  70  7753AagI    captured  80  6201AagI    captured  90  4495"""df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='s+')print("原始数据 df_stats 头部：")print(df_stats.head())

输出：

原始数据 df_stats 头部：  enzyme regions   N  length0   AaaI     all  10  2380451   AaaI     all  20  1703932   AaaI     all  30  1317823   AaaI     all  40  1037904   AaaI     all  50   81246

使用 pivot 重塑数据

为了进行 cap_N50_all_N50 和 cap_N90_all_N50 的计算，我们只需要 N 为 50 和 90 的数据。首先筛选出这些数据，然后使用 pivot 进行重塑。

# 筛选出 N 为 50 或 90 的数据，这是后续计算所需filtered_df = df_stats.loc[df_stats["N"].isin([50, 90])]# 使用 pivot 重塑数据# index='enzyme' 将 enzyme 作为新的行索引# columns=['regions', 'N'] 将 regions 和 N 的组合作为新的列索引（多级列）# values='length' 将 length 列的值填充到新的单元格中pivoted_df = filtered_df.pivot(index="enzyme", columns=["regions", "N"], values="length")print("n重塑后的 pivoted_df 头部：")print(pivoted_df.head())

输出：

重塑后的 pivoted_df 头部：regions   all         captured    N          50      90       50      90enzyme                              AaaI    81246   17188   138271   50316AagI     6394    1666    10923    4495

可以看到，pivoted_df 现在是一个宽格式的 DataFrame，enzyme 作为行索引，regions 和 N 的组合作为多级列索引。所有需要进行计算的值都已排列在同一行中，使得后续操作变得非常直接。

基于重塑数据的统计计算

数据重塑完成后，复杂的跨列计算就变得异常简单。我们可以直接通过列名访问数据，并利用 Pandas 的内置方法进行高效的向量化操作。

# 进行统计计算# 从 'captured' 区域的 N50/N90 值中减去 'all' 区域的 N50 值# pivoted_df["captured"] 选取所有 'captured' 区域的列（N50, N90）# pivoted_df[("all", 50)] 选取 'all' 区域的 N50 列# .sub() 方法执行减法，axis=0 表示按行对齐索引进行操作result_df = (pivoted_df["captured"]             .sub(pivoted_df[("all", 50)], axis=0)             .add_prefix("cap_N") # 为列添加前缀 'cap_N'             .add_suffix("_all_N50") # 为列添加后缀 '_all_N50'             .reset_index()) # 将 enzyme 索引重置为普通列print("n最终结果 result_df：")print(result_df)

输出：

最终结果 result_df：N enzyme  cap_N50_all_N50  cap_N90_all_N500   AaaI            57025           -309301   AagI             4529            -1899

通过上述代码，我们仅用了几行简洁的代码就实现了与原始冗长代码相同的结果，并且逻辑更加清晰。

优化效果与优势

与原始的重复筛选和合并方法相比，使用 pivot 进行数据聚合和计算带来了显著的优势：

代码简洁性： 将多步骤的筛选、合并和计算整合为少数几行代码，大大减少了代码量。执行效率： pivot 操作在底层经过高度优化，且避免了多次创建中间 DataFrame 和执行昂贵的 merge 操作，这对于处理大数据集时性能提升尤为明显。可读性与可维护性： 代码逻辑更加集中和直观，易于理解和后续修改。当需要添加新的计算组合时，只需在 pivot 后的 DataFrame 上进行简单的列操作即可。灵活性： 这种模式便于扩展。如果需要计算更多 N 值或 regions 类型的组合，只需调整 filtered_df 的筛选条件和后续的列操作即可。

注意事项与最佳实践

pivot 与 pivot_table 的选择： pivot 函数要求 index 和 columns 参数的组合必须是唯一的，否则会报错。如果存在重复的 index/columns 组合，并且需要对 values 进行聚合（如求和、平均值等），则应使用功能更强大的 pivot_table 函数，它允许指定聚合函数 aggfunc。在本例中，enzyme、regions 和 N 的组合是唯一的，因此 pivot 适用。缺失值处理： 如果某些 index/columns 组合在原始数据中不存在，pivot 操作会在新生成的 DataFrame 中填充 NaN。在进行后续计算前，可能需要使用 fillna() 等方法处理这些缺失值。性能考量： 尽管 pivot 效率高，但对于拥有极大量唯一 columns

以上就是Pandas 数据聚合优化：利用 Pivot 提升效率与代码简洁性的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1370716.html

ai red 大数据排列聚合函数

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

利用Python进行网页表格数据抓取与Pandas DataFrame转换

上一篇 2025年12月14日 10:47:18

Pandas高效聚合：利用pivot和广播操作简化复杂数据转换

下一篇 2025年12月14日 10:47:30

好文分享

如何利用BFC和inline-block解决兄弟元素间margin塌陷问题？

BFC清除兄弟元素间margin塌陷原理 margin塌陷问题当相邻的块级元素垂直排列，它们的margin可能会塌陷并重叠，称为margin塌陷。 BFC清除margin塌陷清除margin塌陷的一种常见方法是将下方元素包裹在一个新的块级格式化上下文（BFC）中，因为BFC之间不会相互影响。 d…

程序猿
2025年12月24日
6000
好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
7000
好文分享

如何优化CSS Grid布局中子元素排列和宽度问题？

css grid布局中的优化问题在使用css grid布局时可能会遇到以下问题：问题1：无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%)，这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时，它们…

程序猿
2025年12月24日
9000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
5000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
3000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
2000
好文分享

面板翻页显示16张图片和信息，如何实现模块靠左显示并按行排列？

如何在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。已知信息：图片和信息使用json数据定义。使用paginationbyjs函数进行分页。使…

程序猿
2025年12月24日
0000
好文分享

如何在面板上翻页显示16个图片和信息，并实现模块靠左显示、内容按行排列？

如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。答案：要将div内的模块靠左显示，并按行排列模块内容，可以使用以下方式：给div容器添加flexbox属性： #list {…

程序猿
2025年12月24日
0000
好文分享

如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果中间部分里面的图片，文字显示在图片下方第二页图片靠左显示以上就是如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？的…

程序猿
2025年12月24日
0000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
1000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
3000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
3000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
1000
好文分享

如何让 div 内的模块靠左显示，模块内容按行排列，并在面板上实现翻页展示？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果 css 代码： #List { display: flex; flex-wrap: wrap;}#List > div { text…

程序猿
2025年12月24日
0000