Pandas数据透视与向量化操作：高效聚合复杂数据集

程序猿 • 2025年12月14日 10:47:37 • 好文分享 • 阅读 1

本教程旨在解决Pandas数据处理中常见的重复性select和merge操作问题。通过引入pivot函数和向量化计算，我们将展示如何将繁琐的多步骤数据筛选、合并和计算过程，简化为简洁、高效且易于维护的代码。文章将详细阐述如何利用这些强大的Pandas功能，实现复杂数据聚合与转换，显著提升代码的可读性和执行效率。

冗余数据处理的挑战

在处理大规模数据集时，我们经常需要根据多个条件对数据进行筛选、组合，并执行各种计算。传统的做法可能涉及多次使用dataframe.loc进行条件筛选，创建多个中间dataframe，然后通过pd.merge将它们合并，最后进行列之间的算术运算。这种方法虽然能够得到正确结果，但存在以下显著缺点：

代码冗余： 大量重复的筛选、合并和列操作使得代码量庞大，难以阅读和理解。效率低下： 频繁创建中间DataFrame和执行merge操作会增加内存开销和计算时间，尤其对于百万级别甚至千万级别的数据集，性能瓶颈尤为突出。维护困难： 随着业务逻辑的复杂化，修改或扩展现有代码变得更加困难，容易引入错误。

以下是一个典型场景的示例代码，展示了这种重复性操作：

import ioimport pandas as pdTESTDATA="""enzyme  regions   N   lengthAaaI    all       10  238045AaaI    all       20  170393AaaI    all       30  131782AaaI    all       40  103790AaaI    all       50  81246AaaI    all       60  62469AaaI    all       70  46080AaaI    all       80  31340AaaI    all       90  17188AaaI    captured  10  292735AaaI    captured  20  229824AaaI    captured  30  193605AaaI    captured  40  163710AaaI    captured  50  138271AaaI    captured  60  116122AaaI    captured  70  95615AaaI    captured  80  73317AaaI    captured  90  50316AagI    all       10  88337AagI    all       20  19144AagI    all       30  11030AagI    all       40  8093AagI    all       50  6394AagI    all       60  4991AagI    all       70  3813AagI    all       80  2759AagI    all       90  1666AagI    captured  10  34463AagI    captured  20  19220AagI    captured  30  15389AagI    captured  40  12818AagI    captured  50  10923AagI    captured  60  9261AagI    captured  70  7753AagI    captured  80  6201AagI    captured  90  4495"""df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='s+')# 原始的重复性操作示例df_cap_N90 = df_stats[(df_stats['N'] == 90) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])df_cap_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])df_all_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'all')].drop(columns=['regions', 'N'])df_summ_cap_N50_all_N50 = pd.merge(df_cap_N50, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N50', '_all_N50'))df_summ_cap_N50_all_N50['cap_N50_all_N50'] = (df_summ_cap_N50_all_N50['length_cap_N50'] -                                              df_summ_cap_N50_all_N50['length_all_N50'])df_summ_cap_N90_all_N50 = pd.merge(df_cap_N90, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N90', '_all_N50'))df_summ_cap_N90_all_N50['cap_N90_all_N50'] = df_summ_cap_N90_all_N90['length_cap_N90'] - df_summ_cap_N90_all_N90['length_all_N50']df_summ = pd.merge(df_summ_cap_N50_all_N50.drop(columns=['length_cap_N50', 'length_all_N50']),                   df_summ_cap_N90_all_N50.drop(columns=['length_cap_N90', 'length_all_N50']),                   on='enzyme', how='inner')print("原始方法计算结果：")print(df_summ)

Pandas高效聚合与转换策略：pivot与向量化操作

为了克服上述问题，我们可以利用Pandas的pivot函数和其强大的向量化操作能力。pivot函数能够将DataFrame从“长格式”转换为“宽格式”，将指定列的唯一值转换为新的列，从而大大简化后续的计算。结合向量化操作，我们可以避免显式的循环和多次合并，直接对整个列或DataFrame进行高效运算。

核心思想是：

预筛选： 仅保留需要参与计算的行，减少数据量。数据透视： 使用pivot将关键的分类变量（如regions和N）转化为新的列，使得需要比较的数据点在同一行上。向量化计算： 直接对透视后的DataFrame进行列与列之间的数学运算。

示例代码与详细解析

我们将使用df_stats数据集，目标是计算cap_N50_all_N50 (captured N50 – all N50) 和 cap_N90_all_N50 (captured N90 – all N50)。

# 1. 筛选相关数据# 仅保留N为50或90的行，因为只有这些N值参与最终计算filtered_df = df_stats.loc[df_stats["N"].isin([50, 90])]# 2. 使用pivot进行数据透视# index='enzyme'：以enzyme作为新的行索引# columns=['regions', 'N']：将regions和N的组合作为新的列索引（多级列索引）# values='length'：透视后单元格的值取自length列pivoted_df = filtered_df.pivot(index="enzyme", columns=["regions", "N"], values="length")print("n透视后的DataFrame (pivoted_df):")print(pivoted_df)# 3. 执行向量化计算# 提取'captured'区域的N50和N90长度captured_lengths = pivoted_df["captured"]# 提取'all'区域的N50长度all_N50_length = pivoted_df[("all", 50)]# 计算 (captured N50 - all N50) 和 (captured N90 - all N50)# captured_lengths.sub(all_N50_length, axis=0)# axis=0 表示按行进行广播，即captured_lengths的每一行都减去all_N50_length的对应行值result_df = captured_lengths.sub(all_N50_length, axis=0)# 4. 调整列名并重置索引# 为结果列添加前缀和后缀，使其符合目标输出格式# add_prefix("cap_N")：为'captured'下的N值（50, 90）添加前缀'cap_N'# add_suffix("_all_N50")：为所有结果列添加后缀'_all_N50'final_output = result_df.add_prefix("cap_N").add_suffix("_all_N50").reset_index()print("n最终优化后的计算结果 (final_output):")print(final_output)

代码解析：

df_stats.loc[df_stats[“N”].isin([50, 90])]: 首先，我们筛选出N列值为50或90的行。这是一个重要的优化步骤，因为它减少了后续pivot操作的数据量，提高了效率。.pivot(index=”enzyme”, columns=[“regions”, “N”], values=”length”): 这是核心步骤。index=”enzyme”：enzyme列的值将成为新DataFrame的行索引。columns=[“regions”, “N”]：regions和N列的组合将构成新的多级列索引。例如，(‘captured’, 50)和(‘all’, 50)将成为独立的列。values=”length”：透视后新列中的值将从原始DataFrame的length列获取。经过这一步，我们得到了一个宽格式的DataFrame pivoted_df，其中所有需要比较的length值都已排列在同一行上，方便后续计算。pivoted_df[“captured”].sub(pivoted_df[(“all”, 50)], axis=0):pivoted_df[“captured”]：这会选择多级列索引中第一级为’captured’的所有列，即(‘captured’, 50)和(‘captured’, 90)。pivoted_df[(“all”, 50)]：这会选择多级列索引中精确匹配(‘all’, 50)的列。.sub(…, axis=0)：这是Pandas的向量化减法操作。它将captured_lengths中的每一列（(‘captured’, 50)和(‘captured’, 90)）分别减去all_N50_length列。axis=0确保操作是按行进行的，即每个enzyme的对应值相减。.add_prefix(“cap_N”).add_suffix(“_all_N50”).reset_index():.add_prefix(“cap_N”)：为当前列名（例如50, 90）添加前缀”cap_N”，变为”cap_N50″，”cap_N90″。.add_suffix(“_all_N50”)：为所有列名添加后缀”_all_N50″，最终形成”cap_N50_all_N50″和”cap_N90_all_N50″。.reset_index()：将enzyme索引转换回常规列，完成最终输出格式。

优势与注意事项

优势

代码简洁性： 显著减少了代码行数，从数十行缩减到几行，极大地提高了代码的可读性和可维护性。执行效率： pivot和向量化操作在底层通常由C语言实现，相比于Python层的循环和多次merge，具有更高的执行效率，尤其适用于大数据集。可扩展性： 当需要添加更多N值或regions组合的计算时，只需修改isin()筛选条件和后续的列选择逻辑，而无需复制粘贴大量代码。减少中间DataFrame： 避免了创建大量的临时DataFrame，降低了内存消耗。

注意事项

数据透视的适用性： pivot函数要求index、columns和values的组合在原始数据中必须是唯一的。如果存在重复组合，Pandas会报错。在这种情况下，应考虑使用pivot_table，它允许指定聚合函数来处理重复值。多级列索引： pivot操作常常会生成多级列索引。理解和正确使用多级索引是高效操作的关键。例如，通过元组(‘all’, 50)来选择特定列。列名管理： pivot后的列名可能不是最终需要的格式。需要灵活运用add_prefix、add_suffix、rename等方法来调整列名，使其符合业务需求。内存消耗： 尽管比多次merge更优，但如果columns参数包含大量唯一值，生成的宽格式DataFrame可能会非常宽，占用大量内存。在极端情况下，可能需要考虑其他聚合策略，如groupby().apply()结合自定义函数。缺失值处理： 如果原始数据中某些index、columns组合不存在，pivot操作会引入NaN（Not a Number）值。在进行后续计算前，可能需要根据业务逻辑对这些NaN值进行填充或删除。

总结

通过本教程，我们深入探讨了如何利用Pandas的pivot函数和向量化操作来优化数据聚合与转换过程。这种方法不仅显著提升了代码的简洁性、可读性和可维护性，还在处理大规模数据集时展现出卓越的性能优势。掌握pivot和向量化计算是成为高效Pandas用户的关键一步，能够帮助开发者摆脱冗余的select和merge操作，编写出更加优雅和高效的数据处理代码。在面对复杂的数据转换需求时，始终优先考虑Pandas提供的内置高效函数，以充分发挥其强大功能。

以上就是Pandas数据透视与向量化操作：高效聚合复杂数据集的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1370720.html

ai app c语言 python red 大数据排列聚合函数

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Pandas高效聚合：利用pivot和广播操作简化复杂数据转换

上一篇 2025年12月14日 10:47:30

利用BeautifulSoup和Pandas高效抓取并结构化网页表格数据

下一篇 2025年12月14日 10:47:44

好文分享

如何利用BFC和inline-block解决兄弟元素间margin塌陷问题？

BFC清除兄弟元素间margin塌陷原理 margin塌陷问题当相邻的块级元素垂直排列，它们的margin可能会塌陷并重叠，称为margin塌陷。 BFC清除margin塌陷清除margin塌陷的一种常见方法是将下方元素包裹在一个新的块级格式化上下文（BFC）中，因为BFC之间不会相互影响。 d…

程序猿
2025年12月24日
5000
好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何优化CSS Grid布局中子元素排列和宽度问题？

css grid布局中的优化问题在使用css grid布局时可能会遇到以下问题：问题1：无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%)，这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时，它们…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

面板翻页显示16张图片和信息，如何实现模块靠左显示并按行排列？

如何在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。已知信息：图片和信息使用json数据定义。使用paginationbyjs函数进行分页。使…

程序猿
2025年12月24日
0000
好文分享

如何在面板上翻页显示16个图片和信息，并实现模块靠左显示、内容按行排列？

如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。答案：要将div内的模块靠左显示，并按行排列模块内容，可以使用以下方式：给div容器添加flexbox属性： #list {…

程序猿
2025年12月24日
0000
好文分享

如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果中间部分里面的图片，文字显示在图片下方第二页图片靠左显示以上就是如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？的…

程序猿
2025年12月24日
0000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
0000