从包含列表列的DataFrame中提取并聚合数据

程序猿 • 2025年12月14日 13:33:26 • 好文分享 • 阅读 0

本教程旨在解决如何从一个DataFrame中，根据另一个DataFrame中包含列表的列进行条件匹配，并提取符合条件的最小值。文章将详细介绍如何利用Pandas的explode、merge和groupby等功能，高效处理列表型数据匹配，并聚合出期望的最小值，最终生成一个结构清晰、易于理解的解决方案。

场景描述

在数据分析和处理中，我们经常会遇到需要从一个数据源（例如，包含详细交易记录的dataframe df1）中，根据另一个数据源（例如，包含分组或汇总信息，且其关键匹配列包含列表的dataframe df2）来提取或聚合数据的情况。具体来说，我们的目标是从 df1 中获取 value 值，并将其添加到 df2 中，匹配条件如下：

df1 的 month 列必须与 df2 的 month 列匹配。df1 的 store 列的值必须包含在 df2 的 store 列（这是一个列表）中。如果存在多个匹配项，我们需要获取所有匹配 value 中的最小值。

这带来了一个挑战，因为 df2 的 store 列是一个列表，无法直接进行标准的数据框合并操作。

数据准备

为了演示此过程，我们首先创建两个示例DataFrame：df1 包含商店、值和月份的详细记录，而 df2 包含商店列表和月份，我们希望向 df2 添加聚合后的 value 列。

import pandas as pd# DataFrame 1: 详细数据data1 = {'store': [1, 1, 2, 2], 'value': [24, 28, 29, 0], 'month': [1, 2, 1, 2]}df1 = pd.DataFrame(data1)# DataFrame 2: 包含列表的匹配数据data2 = {'store': [[1, 2, 3], [2]], 'month': [1, 2]}df2 = pd.DataFrame(data2)print("df1:")print(df1)print("ndf2:")print(df2)

输出：

df1:   store  value  month0      1     24      11      1     28      22      2     29      13      2      0      2df2:       store  month0  [1, 2, 3]      11        [2]      2

我们期望的最终结果是 df2 添加一个 value 列，其中：

对于 df2 的第一行 ([1, 2, 3], 1)：df1 中 (store=1, month=1) 对应的 value 是 24。df1 中 (store=2, month=1) 对应的 value 是 29。df1 中 (store=3, month=1) 没有匹配项。在 24 和 29 中取最小值，结果为 24。对于 df2 的第二行 ([2], 2)：df1 中 (store=2, month=2) 对应的 value 是 0。结果为 0。

核心挑战与解决方案

直接将 df2 与 df1 合并是不可行的，因为 df2[‘store’] 列包含的是列表，而不是单个值。解决此问题的关键在于使用 Pandas 的 explode() 方法。explode() 可以将列表或类列表的条目转换为单独的行，从而使我们能够进行标准化的合并操作。

具体步骤如下：

预处理 df1： 为了确保我们总是获取每个 (store, month) 组合的最小值，我们首先对 df1 进行分组并计算 value 的最小值。展开 df2 的列表列： 使用 explode(‘store’) 将 df2 的 store 列中的每个列表元素展开成单独的行。在展开过程中，我们需要保留原始行的索引，以便后续聚合。合并数据： 将展开后的 df2 与预处理后的 df1 进行左连接合并。聚合结果： 合并后，对于 df2 的每个原始行（通过保留的索引识别），我们需要再次聚合 value 列，以获取其所有匹配项中的最小值。整合回 df2： 将最终聚合得到的最小值添加回原始的 df2。

详细实现步骤

1. 预处理 df1：计算每个 (store, month) 的最小值

这一步是为了确保 df1 中每个 (store, month) 组合只有一个 value，且是最小值。这在 df1 可能有重复 (store, month) 但 value 不同的情况下尤其重要。

df1_min_values = df1.groupby(['store', 'month'], as_index=False)['value'].min()print("df1_min_values:")print(df1_min_values)

输出：

df1_min_values:   store  month  value0      1      1     241      1      2     282      2      1     293      2      2      0

2. 展开 df2 的列表列

使用 explode(‘store’) 将 df2 的 store 列中的列表展开。为了在后续步骤中能将结果正确地映射回原始 df2 的行，我们还需要使用 reset_index() 来获取原始的行索引。

exploded_df2 = df2.explode('store').reset_index()print("nexploded_df2:")print(exploded_df2)

输出：

exploded_df2:   index  store  month0      0      1      11      0      2      12      0      3      13      1      2      2

可以看到，df2 的第一行（index=0）被展开成了三行，分别对应 store 列表中的 1, 2, 3，并且 month 和 index 列的值被复制。

3. 合并与聚合

现在，我们可以将 exploded_df2 与 df1_min_values 进行左连接合并。合并后，我们将得到一个包含所有可能匹配项的DataFrame。然后，我们按原始 df2 的索引 (index 列) 进行分组，并计算 value 的最小值。

merged_exploded = exploded_df2.merge(df1_min_values, on=['store', 'month'], how='left')print("nmerged_exploded after merge:")print(merged_exploded)final_min_values = merged_exploded.groupby('index')['value'].min()print("nfinal_min_values after groupby min:")print(final_min_values)

输出：

merged_exploded after merge:   index  store  month  value0      0      1      1   24.01      0      2      1   29.02      0      0      3      1    NaN  # store 3, month 1 has no match in df1_min_values3      1      2      2    0.0final_min_values after groupby min:index0    24.01     0.0Name: value, dtype: float64

注意，store=3, month=1 在 df1_min_values 中没有匹配项，因此其 value 为 NaN。groupby(‘index’)[‘value’].min() 会自动忽略 NaN 值，只对有效数字进行最小值计算。

4. 整合回 df2

最后一步是将计算出的 final_min_values 赋值给原始的 df2。

df2_result = df2.assign(value=final_min_values)print("n最终结果 df2_result:")print(df2_result)

输出：

最终结果 df2_result:       store  month  value0  [1, 2, 3]      1   24.01        [2]      2    0.0

这与我们期望的结果完全一致。

完整代码示例

import pandas as pd# 原始数据data1 = {'store': [1, 1, 2, 2], 'value': [24, 28, 29, 0], 'month': [1, 2, 1, 2]}data2 = {'store': [[1, 2, 3], [2]], 'month': [1, 2]}df1 = pd.DataFrame(data1)df2 = pd.DataFrame(data2)# 1. 预处理 df1，计算每个 (store, month) 的最小值df1_min_values = df1.groupby(['store', 'month'], as_index=False)['value'].min()# 2. 展开 df2 的 'store' 列，并保留原始索引exploded_df2 = df2.explode('store').reset_index()# 3. 合并展开后的 df2 与预处理的 df1，然后按原始索引聚合求最小值s = exploded_df2.merge(df1_min_values, on=['store', 'month'], how='left')                 .groupby('index')['value'].min()# 4. 将结果赋值回原始 df2df2_final = df2.assign(value=s)print("最终的 df2:")print(df2_final)

注意事项

性能考量： explode() 操作会增加DataFrame的行数。如果原始DataFrame df2 很大，并且其列表列中的元素数量非常多，explode() 可能会导致内存消耗增加和性能下降。在这种情况下，可能需要考虑其他方法，例如使用 apply 函数结合列表推导或并行处理，但通常 explode 是更优的 Pandas 解决方案。NaN 处理： 在合并过程中，如果 df2 展开后的行在 df1_min_values 中没有匹配项，则 value 列将包含 NaN。groupby().min() 方法会自动忽略 NaN 值。如果希望将未匹配项的 value 设为特定值（例如 0），可以在 assign 之前使用 fillna(0)。数据类型： value 列在合并后可能会因为包含 NaN 而转换为浮点类型。如果需要整数类型，可以在 fillna 后使用 astype(int)。

总结

本教程展示了如何利用 Pandas 强大的数据处理能力，通过 explode()、merge() 和 groupby() 等操作，有效地解决涉及列表列的复杂数据匹配和聚合问题。这种方法不仅能够处理一对多关系中的匹配，还能在匹配成功后进行灵活的聚合（如本例中的求最小值），是处理复杂数据结构时非常实用的技巧。掌握这些技术将大大提高你在数据清洗和特征工程中的效率。

以上就是从包含列表列的DataFrame中提取并聚合数据的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1373769.html

app 数据清洗

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python函数处理字典中多余关键字参数的技巧

上一篇 2025年12月14日 13:33:23

使用BeautifulSoup4高效抓取HTML下拉菜单项名称的实用指南

下一篇 2025年12月14日 13:33:29

好文分享

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
好文分享

html5 js怎么加_html5用script标签内嵌或外链引入JS代码【添加】

在HTML5中执行JavaScript需通过script标签：一、内联编写于head或body中；二、外链引入.js文件并建议放body末尾或加defer；三、defer按序执行，async独立执行；四、可动态创建script元素插入执行。如果您希望在HTML5页面中执行JavaScript代码，…

程序猿
2025年12月23日
0000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000
好文分享

html5能否插入带表单的文档_html5表单文档嵌入与数据提交【步骤】

HTML5中无法直接嵌入外部带表单的HTML文档并原生提交；可行方案有四：一、用iframe嵌入，需同源或CORS支持，并用postMessage通信；二、用fetch+DOMParser动态加载表单片段并手动绑定事件；三、在当前页面直接编写表单，最规范且兼容性好；四、用JavaScript+fet…

程序猿
2025年12月23日
0000
好文分享

360怎么装html5_360浏览器默认支持HTML5无需额外安装设置【说明】

HTML5是网页标准，非独立软件，360浏览器7.0+已原生支持；需确认内核为Blink/Chromium、关闭兼容模式、禁用强制兼容策略、重置Flash插件、清除HTML5本地存储、检查系统Media Foundation组件。如果您在使用360浏览器时发现HTML5网页功能异常（如视频无法播放…

程序猿
2025年12月23日
0000
好文分享

html如何滑动_实现HTML页面或元素滑动效果【效果】

可通过CSS scroll-behavior实现平滑锚点跳转，JavaScript scrollTo精确控制滚动位置，CSS transform模拟高性能滑动动画，或使用Swiper等第三方库实现触摸拖拽、循环播放等高级交互功能。如果您希望在网页中实现页面或特定元素的滑动效果，可以通过CSS和Ja…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
2000
好文分享

html5能否让搜索框随滚动固定_html5positionfixed固定布局【攻略】

可使用CSS的position: fixed实现搜索框固定定位，或用position: sticky实现边界感知粘性效果，配合JavaScript动态控制、响应式适配及占位修复，确保滚动时稳定显示。如果您希望在网页滚动过程中让搜索框始终保持在可视区域的固定位置，HTML5 本身不提供直接的布局控制…

程序猿
2025年12月23日
2000
好文分享

如何操作html_操作HTML元素的常用方法【常用】

必须掌握操作HTML元素的五种核心方法：一、通过ID精准获取并修改单个元素；二、通过类名批量操作多个元素；三、用querySelector系列灵活选择任意CSS匹配元素；四、动态创建并插入新元素；五、安全移除或替换现有元素。如果您需要动态修改网页内容或响应用户交互，则必须掌握操作HTML元素的核心…

程序猿
2025年12月23日
2000
好文分享

html5框架怎么设置_HTML5用iframe或div框架集嵌入子页面设框架【设置】

HTML5中嵌入子页面的现代方案有四种：一、用iframe标签直接嵌入，支持安全与可访问性属性；二、用CSS Grid/Flexbox布局配合JavaScript动态加载HTML片段；三、用Shadow DOM封装自定义元素实现样式脚本隔离；四、用object标签嵌入HTML并提供fallback内…

程序猿
2025年12月23日
2000
好文分享

visual怎么创建html5_VS新建HTML File选HTML5模板快速创建页面【创建】

可在Visual Studio中通过新建文件选HTML5模板、新建ASP.NET Core Web App项目或手动创建.html文件并输入及html:5代码段三种方式快速生成HTML5网页。如果您在 Visual Studio 中需要快速创建一个符合 HTML5 标准的网页文件，则可通过新建项目…

程序猿
2025年12月23日
0000
好文分享

html如何设置新版本_为HTML页面设置版本更新提示【提示】

可通过meta标签检测、Service Worker监听、Last-Modified头比对、manifest.json校验四种方式提示HTML页面新版本更新。如果您希望用户在访问HTML页面时获知存在新版本并提示更新，可以通过客户端缓存控制与版本标识机制触发提示行为。以下是实现该功能的多种方法： …

程序猿
2025年12月23日
0000
jimdo怎样用html5做图片放大镜_jimdo图片放大镜html5实现与放大倍数【实操】

可在 Jimdo 网站通过四种方式实现图片放大镜效果：一、纯 HTML5+CSS3+JS 实现 canvas 局部放大；二、集成 magnific-popup 插件支持弹窗缩放；三、纯 CSS hover 缩放模拟；四、利用 data-zoom 属性动态触发 canvas 放大。如果您在 Jimd…

程序猿
2025年12月23日 • 好文分享
0000
好文分享

android 怎么用html5_安卓用WebView加载html5页面或开发混合应用【使用】

Android中WebView集成需四步：一、声明权限与控件并加载HTML；二、启用JavaScript及HTML5特性；三、通过assets目录加载本地资源；四、用addJavascriptInterface实现JS与Java通信，并手动管理生命周期。 2、在布局文件（如 activity_mai…

程序猿
2025年12月23日
0000
好文分享

html5如何清除缓存_HTML5缓存清除步骤与清理浏览器缓存方法【教程】

HTML5网页应用异常通常由浏览器缓存旧资源导致，需依次清除常规缓存、强制刷新、清理AppCache、注销Service Worker并清空其缓存、或用无痕模式验证。如果您在使用HTML5网页应用时遇到内容未更新、页面显示异常或资源加载错误等问题，可能是由于浏览器缓存了旧版本的HTML、CSS、J…

程序猿
2025年12月23日
0000
好文分享

html5怎么加元素_HT5用JS createElement或innerHTML添加新元素【添加】

HTML5中动态添加元素有四种方法：一、createElement创建并配置元素后追加；二、innerHTML直接插入或替换HTML字符串；三、insertAdjacentHTML在指定位置插入HTML；四、DocumentFragment批量添加以提升性能。如果您希望在HTML5页面中动态添加新…

程序猿
2025年12月23日
0000
好文分享

flash怎么变为html5_用Swiffy或CreateJS将Flash动画转HTML5【转换】

可采用四种方法迁移Flash动画至HTML5：一、用Swiffy转换SWF为Canvas/JS；二、用CreateJS从Animate导出HTML5 Canvas；三、用Lottie+Bodymovin将AE版动画转JSON播放；四、用Ruffle模拟器直接运行原SWF。如果您希望将现有的Flas…

程序猿
2025年12月23日
0000
好文分享

app html5 怎么静音_HTML5用audio/video muted属性或JS设静音【静音】

HTML5音视频静音可通过muted属性、JavaScript动态控制、setAttribute方法、MutationObserver监听及处理自动播放策略实现：直接添加muted属性默认静音；JS设media.muted=true/false；setAttribute(‘muted&#…

程序猿
2025年12月23日
0000
好文分享

html5能否插入xml文档_html5xml嵌入与节点解析展示【攻略】

需用JavaScript加载解析XML：一、XMLHttpRequest异步获取并解析；二、DOMParser解析内联XML字符串；三、fetch API配合DOMParser处理；四、XMLSerializer序列化调试；五、getElementsByTagNameNS处理命名空间。如果您希望在…

程序猿
2025年12月23日
2000
好文分享

怎么上传图片html5_html5用FormData或input file上传图片到服务器【上传】

可通过HTML5的FormData与file输入框结合XMLHttpRequest或fetch实现图片上传：一、XMLHttpRequest方式需创建FormData并手动配置xhr；二、fetch方式以Promise风格简化异步流程；三、启用multiple属性可批量上传；四、配合FileRead…

程序猿
2025年12月23日
0000