Pandas DataFrame：基于键匹配与计数实现数据值智能拆分与合并

程序猿 • 2025年12月14日 16:23:48 • 用户投稿 • 阅读 0

本教程详细阐述了如何使用Pandas在两个DataFrame之间进行数据操作，以实现基于键匹配和出现频率的数据值拆分与合并。核心方法是首先计算主DataFrame中每个键的出现次数，然后将另一个DataFrame中对应键的值按这些频率进行标准化（除法），最后通过左连接将标准化后的值合并回主DataFrame，从而有效地将聚合值按比例分配到每个匹配的记录上。

问题场景描述

在数据分析和处理中，我们经常会遇到这样的需求：有两个dataframe，一个包含重复的键值（例如，订单明细表中的产品id），另一个包含每个唯一键的汇总数据（例如，产品库存或总销售额）。现在，我们希望将汇总dataframe中的值根据键在明细dataframe中出现的次数进行平均分配或拆分，并将这些拆分后的值合并回明细dataframe中。

考虑以下两个示例DataFrame：

DataFrame 1 (df1): 包含重复的id，代表需要分配的记录。

ABACAAC

DataFrame 2 (df2): 包含唯一的id以及与这些id相关的聚合数据。

id Col1 Col2 Col3

A40010020B200800C600800

我们期望的输出结果是：对于df1中的每一行，如果其id在df2中有对应值，则df2中Col1, Col2, Col3的值应根据该id在df1中出现的总次数进行平均分配。例如，id ‘A’在df1中出现了4次，在df2中Col1为400，那么每个id ‘A’对应的Col1值应为 400 / 4 = 100。

期望输出：

id Col1 Col2 Col3

A100255B200800A100255C300400A100255A100255C300400

核心思路与步骤

解决此问题的关键在于利用Pandas的强大功能，包括value_counts()、div()和merge()。具体步骤如下：

计算键的出现频率： 统计df1中每个id出现的次数。标准化DataFrame 2： 将df2中的数据列根据步骤1中计算出的频率进行除法运算。合并数据帧： 将标准化后的df2与原始df1进行左连接，以获取最终结果。

1. 准备数据

首先，我们创建示例DataFrame：

import pandas as pdimport numpy as np# DataFrame 1data1 = {'id': ['A', 'B', 'A', 'C', 'A', 'A', 'C']}df1 = pd.DataFrame(data1)# DataFrame 2data2 = {'id': ['A', 'B', 'C'],         'Col1': [400, 200, 600],         'Col2': [100, np.nan, 800], # 使用np.nan表示空值         'Col3': [20, 800, np.nan]}df2 = pd.DataFrame(data2)print("原始 df1:")print(df1)print("n原始 df2:")print(df2)

2. 计算键的出现频率

使用value_counts()方法可以轻松获取df1中id列的每个唯一值的出现次数。

id_counts = df1['id'].value_counts()print("nid 在 df1 中的出现频率:")print(id_counts)# 输出示例:# A    4# C    2# B    1# Name: id, dtype: int64

3. 标准化DataFrame 2

这是实现值拆分的关键一步。我们将df2的id列设置为索引，然后使用div()方法将其数据列除以id_counts。axis=0确保按行（即按id）进行除法。

# 将df2的'id'列设为索引，以便与id_counts对齐df2_indexed = df2.set_index('id')# 将df2的数据列除以对应的id出现频率# Pandas会自动根据索引（id）进行对齐df2_standardized = df2_indexed.div(id_counts, axis=0)print("n标准化后的 df2:")print(df2_standardized)# 输出示例:#     Col1   Col2   Col3# id# A  100.0   25.0    5.0# B  200.0    NaN  800.0# C  300.0  400.0    NaN

4. 合并数据帧

最后一步是将标准化后的df2_standardized与原始df1进行合并。为了保留df1的原始行顺序和索引信息，我们通常会先重置df1的索引，进行合并后再恢复。

# 为了在合并后保留df1的原始索引顺序，先reset_index()# 然后进行左连接，将标准化后的数据合并到df1# 最后通过set_index().reindex()恢复原始索引和顺序result_df = (df1.reset_index() # 保存原始索引             .merge(df2_standardized, on='id', how='left')             .set_index('index') # 恢复原始索引             .reindex(df1.index) # 确保顺序与df1完全一致            )print("n最终结果 DataFrame:")print(result_df)

完整代码示例

将上述步骤整合到一起，得到简洁高效的解决方案：

import pandas as pdimport numpy as np# 1. 准备数据data1 = {'id': ['A', 'B', 'A', 'C', 'A', 'A', 'C']}df1 = pd.DataFrame(data1)data2 = {'id': ['A', 'B', 'C'],         'Col1': [400, 200, 600],         'Col2': [100, np.nan, 800],         'Col3': [20, 800, np.nan]}df2 = pd.DataFrame(data2)# 2. 计算id在df1中的出现频率，并标准化df2#    df2.set_index('id') 将id列设为索引#    .div(df1['id'].value_counts(), axis=0) 将df2的数据列按id出现频率进行除法#    axis=0 表示按行（即按索引id）进行对齐和除法df2_standardized = df2.set_index('id').div(df1['id'].value_counts(), axis=0)# 3. 合并数据帧#    df1.reset_index() 暂时保存df1的原始索引，以便后续恢复#    .merge(..., on='id', how='left') 执行左连接，基于'id'合并标准化后的数据#    .set_index('index').reindex(df1.index) 恢复原始索引并确保行顺序与df1一致output_df = (df1.reset_index()             .merge(df2_standardized, on='id', how='left')             .set_index('index').reindex(df1.index)            )print("最终输出:")print(output_df)

输出结果:

最终输出:  id   Col1   Col2   Col30  A  100.0   25.0    5.01  B  200.0    NaN  800.02  A  100.0   25.0    5.03  C  300.0  400.0    NaN4  A  100.0   25.0    5.05  A  100.0   25.0    5.06  C  300.0  400.0    NaN

注意事项与最佳实践

how=’left’ 合并： 使用左连接（how=’left’）可以确保df1中的所有行都被保留，即使某些id在df2中没有对应项。对于df2中不存在的id，合并后的相应数据列将填充NaN。处理 NaN 值： 如果df2中存在空值（如Col2中id ‘B’对应的空值），经过除法运算后仍然会是NaN。这通常是符合预期的行为。如果需要填充这些NaN，可以在合并后使用fillna()方法。索引管理： reset_index()、set_index()和reindex()的组合使用是为了确保合并后的DataFrame不仅包含正确的数据，而且其行索引和顺序与原始df1完全一致，这对于后续的数据处理或分析非常重要。性能考量： 对于非常大的DataFrame，Pandas的这些操作通常是高度优化的。value_counts()和div()是基于C语言实现的，效率很高。merge()操作也经过了优化。然而，如果df1或df2的规模达到数百万甚至上亿行，可能需要考虑内存使用和更高级的优化策略。通用性： 这种方法不仅适用于单个数据列，而是可以自动应用于df2中所有非id的数据列，提供了很高的通用性。

总结

本教程展示了一种高效且灵活的Pandas解决方案，用于根据键的出现频率将一个DataFrame中的值智能地拆分并合并到另一个DataFrame中。通过结合value_counts()统计频率、set_index()和div()进行标准化，以及merge()进行数据整合，我们能够轻松处理复杂的数据分配需求。掌握这种模式对于进行高级数据预处理和特征工程至关重要。

以上就是Pandas DataFrame：基于键匹配与计数实现数据值智能拆分与合并的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1376979.html

c语言

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

413.8K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

优化LangChain与ChromaDB：提升RAG响应完整性与准确性

上一篇 2025年12月14日 16:23:38

PyTorch DataLoader 批处理目标维度异常解析与修正

下一篇 2025年12月14日 16:23:52

用户投稿

html5如何改成flash_HTML5替代Flash方案与迁移技巧【方法】

需用HTML5替代Flash：一、Canvas/SVG重写动画图形；二、Video/Audio元素+Web Audio API替代音视频；三、WebSocket/Fetch重构通信；四、Emscripten将AS3转WebAssembly；五、Ruffle模拟器运行遗留SWF。如果您正在处理一个原…

程序猿
2025年12月23日
1000
用户投稿

c语言如何生成html_用C语言程序输出HTML格式文件【文件】

C语言动态生成HTML文件有五种方法：一、用fprintf逐行写入；二、构建缓冲区后fwrite一次性写入；三、用宏简化标签输出；四、从模板文件加载并替换变量；五、用结构体组织元素并序列化。如果您希望使用C语言程序动态生成HTML格式的文件，则需要通过标准文件I/O操作将符合HTML语法的文本内容…

程序猿
2025年12月23日
0000
用户投稿

怎么在HTML上运行C语言_HTML上运行C语言方法【教程】

使用Emscripten将C代码编译为WebAssembly，通过emcc生成HTML和wasm文件，在浏览器中运行；2. 借助JS-Interpreter类库在前端模拟执行简单C代码，适用于教学场景；3. 通过WebSocket连接远程Linux终端，利用xterm.js和后端服务实现C程序的编译…

程序猿
2025年12月23日
0000
用户投稿

怎么用c 运行html_C运行html方法【教程】

可通过system函数调用系统命令打开HTML文件，如Windows下使用start命令，Linux用xdg-open，macOS用open；也可生成HTML内容写入临时文件后调用命令打开；还可使用CreateProcess（Windows）或fork/exec（Linux/macOS）等API更安…

程序猿
2025年12月23日
0000
用户投稿

怎么在html里运行c程序_html中运行c程序方法【教程】

可通过Emscripten将C编译为WebAssembly、调用在线编译API或结合Node.js后端执行C程序。首先推荐使用Emscripten工具链，将C代码（如hello.c）通过emcc命令编译成.wasm文件，并生成配套的HTML和JavaScript文件，在本地服务器运行即可在浏览器中执…

程序猿
2025年12月23日
0000
用户投稿

怎么样用c语言运行html_c语言运行html方法【教程】

C语言可通过三种方式处理HTML：1. 用fopen、fprintf生成静态HTML文件并保存；2. 编写HTTP服务器，通过套接字监听请求并返回HTML响应；3. 生成文件后调用system执行系统命令打开HTML预览。如果您希望在C语言程序中处理或生成HTML内容，通常是因为需要创建动态网页内…

程序猿
2025年12月23日
0000
用户投稿

c 怎么运行html文件路径_C运行html文件路径方法【教程】

答案：通过system()函数调用系统命令可打开HTML文件。一、使用system(“start 文件路径”)在Windows打开，Linux用xdg-open；二、动态拼接路径提高可移植性；三、生成临时HTML文件后自动打开。如果您尝试在C语言程序中打开或运行HTML文件…

程序猿
2025年12月23日
1000
用户投稿

html怎么运行c_html中调用运行C语言方法【教程】

可在HTML中通过三种方式调用C语言代码：一、用Emscripten编译为WebAssembly并在JS中调用；二、通过Node.js后端执行C可执行文件并返回结果；三、配置CGI使Web服务器直接运行C程序。如果您希望在HTML中实现与C语言的交互，以调用C语言编写的函数或程序，需要借助特定技术…

程序猿
2025年12月23日
0000
用户投稿

文本文档c语言怎么在html运行_文本文档c语言嵌入html运行法【技巧】

可通过Emscripten将C代码编译为WebAssembly在HTML中运行，或嵌入JDoodle等平台的交互式编辑器实现在线执行，也可用Prism.js高亮代码并结合JavaScript模拟输出效果。如果您希望在网页中展示C语言代码的运行效果，由于HTML本身无法直接执行C语言程序，必须借助外…

程序猿
2025年12月23日
3000
用户投稿

解决Haskell CGI中因文件读取编码导致HTML输出截断的问题

本文旨在解决Haskell CGI应用程序在Apache环境下，从文件读取数据生成动态HTML时，可能出现HTML输出截断的问题。核心原因在于CGI运行环境的默认语言环境（LANG=C）与文件内容编码（通常为UTF-8）不匹配，导致Haskell在读取文件时抛出无效字节序列错误。解决方案是通过显式设…

程序猿
2025年12月23日
0000
用户投稿

解决Haskell CGI应用中文件读取导致的HTML输出截断问题

本文旨在解决Haskell CGI应用程序在读取包含Unicode字符的文件时，通过Apache等Web服务器运行时可能出现的HTML输出截断问题。核心原因在于CGI环境默认的`LANG=C`导致编码不匹配。解决方案是利用`GHC.IO.Encoding.setLocaleEncoding utf8…

程序猿
2025年12月23日
0000
用户投稿

HTML5WebGL怎么入门_HTML5WebGL3D图形编程的基础知识与实例

先掌握WebGL渲染管线原理并实践绘制三角形，再通过Three.js等库实现3D场景。1. 理解WebGL基于着色器的渲染机制，使用GLSL编写顶点和片元着色器。2. 初始化WebGL环境，编译着色程序，传入顶点数据并调用drawArrays绘制彩色三角形。3. 引入模型、视图和投影矩阵实现3D空间…

程序猿
2025年12月23日
1000
用户投稿

将列表字典转换为扁平化值列表的Pythonic方法

本文旨在介绍如何利用python的列表推导式，高效且简洁地将一个包含多个字典的列表，扁平化为一个只包含所有字典值的单一列表。通过详细的代码示例和解析，读者将掌握这一常用的数据处理技巧，提升代码的简洁性和执行效率。在数据处理和分析的场景中，我们经常会遇到需要从复杂数据结构中提取特定信息的情况。其中一…

程序猿
2025年12月23日
0000
用户投稿

Python教程：将字典列表扁平化为值列表

本教程将指导您如何高效地将一个包含多个字典的列表转换为一个单一的、扁平化的值列表。我们将探讨如何利用python的列表推导式，以简洁优雅的方式提取所有字典中的值，并将其整合到一个新的列表中，适用于处理结构化数据并进行进一步分析或展示的场景。在数据处理和分析的场景中，我们经常会遇到需要将复杂的数据结…

程序猿
2025年12月23日
2000
用户投稿

Python教程：将字典列表中的所有值扁平化为单一列表

本教程详细阐述了如何使用python高效地将一个包含多个字典的列表扁平化为一个单一的值列表。通过利用简洁而强大的嵌套列表推导式，我们可以快速遍历列表中的每个字典及其键值对，提取所有值并将其整合到一个新的列表中，从而实现复杂数据结构的扁平化，适用于数据预处理和信息提取等场景。在数据处理和分析中，我们…

程序猿
2025年12月23日
0000
用户投稿

Python教程：高效扁平化字典列表中的所有值

本文将介绍如何使用python中高效的嵌套列表推导式，将包含多个字典的列表扁平化为一个单一的值列表，无论字典的键名如何，都能实现快速提取，提升代码的简洁性和执行效率。 1. 理解字典列表扁平化需求在Python编程中，我们经常会遇到处理结构化数据的情况，例如一个包含多个字典的列表。每个字典可能代表…

程序猿
2025年12月23日
0000
用户投稿

HTML5网页如何制作3D效果 HTML5网页WebGL的入门指南

WebGL是实现HTML5网页3D效果的核心技术，基于OpenGL ES的JavaScript API，可在canvas中硬件加速渲染3D图形。通过创建canvas元素、获取WebGL上下文、编写顶点与片元着色器、定义几何数据、设置矩阵并进入渲染循环，可搭建基础3D场景。但原生WebGL开发复杂，推…

程序猿
2025年12月23日
0000
用户投稿

html编辑器如何加密敏感代码 html编辑器保护部分代码的技巧

可通过代码混淆、外部加载、禁用右键、WebAssembly封装及HTTP头部策略保护HTML敏感代码，提升安全性。如果您在使用HTML编辑器时需要保护某些敏感代码不被轻易查看或复制，可以通过多种技术手段实现一定程度的隐藏或混淆。这些方法虽不能完全防止专业人员逆向分析，但能有效阻止普通用户直接获取核…

程序猿
2025年12月23日
0000
用户投稿

WebAssembly可以操作颜色吗？探索WASM在图形处理中的潜力

WebAssembly通过高效执行二进制代码支持高性能颜色处理，常以RGBA格式在内存中操作像素数据，结合JavaScript实现图像滤镜、色彩变换等任务，适用于浏览器中的图形密集型应用。 WebAssembly（WASM）本身不直接处理颜色或图形，但它能高效执行二进制代码，非常适合运行用C、C++…

程序猿
2025年12月22日
0000
用户投稿

HTML表单如何实现LDAP支持？怎样连接目录服务？

HTML表单通过服务器端脚本实现LDAP认证，核心在于后端逻辑。前端收集用户名和密码，提交至服务器；服务器使用PHP、Python等语言的LDAP库连接LDAP服务器，先搜索用户DN再尝试绑定验证，成功则登录。需注意网络连通性、DN格式、证书信任与搜索性能。安全方面必须使用LDAPS或StartTL…

程序猿
2025年12月22日
0000