Pandas DataFrame中基于键匹配与计数的智能值分配教程

程序猿 • 2025年12月14日 16:18:38 • 用户投稿 • 阅读 0

本教程详细阐述了如何在Pandas中处理两个DataFrame，一个包含重复键，另一个包含唯一键及其关联数据。核心任务是将第二个DataFrame中的值根据第一个DataFrame中键的出现次数进行拆分并分配，最终生成一个合并后的新DataFrame。文章通过结合merge、value_counts和div等Pandas函数，提供了一种高效且结构化的解决方案，确保数据按比例正确分配，并详细解释了实现步骤与代码细节。

问题概述

在数据分析和处理中，我们经常会遇到需要整合来自不同数据源的信息。一个常见场景是，我们有两个dataframe：

DataFrame 1 (DF_1): 包含一个或多个键列，其中键值可能重复出现，代表了需要分配数据的记录。DataFrame 2 (DF_2): 包含与DF_1中键对应的唯一键值，以及与这些键关联的详细数据列。

我们的目标是创建一个新的DataFrame，它基于DF_1的结构，但DF_2中的数值列已根据DF_1中对应键的出现次数进行了“拆分”或“分配”。例如，如果DF_2中键’A’的值是100，而DF_1中’A’出现了4次，那么在最终结果中，每个’A’对应的数值应为25 (100 / 4)。

核心思路与Pandas函数

解决此类问题的关键在于以下几个Pandas操作的组合：

计数键的频率 (value_counts()): 首先，我们需要知道DF_1中每个键出现了多少次。Series.value_counts()函数能够高效地完成这项任务。按频率拆分/标准化值 (div()): 得到每个键的频率后，我们可以使用DataFrame.div()函数将DF_2中对应键的数值列除以其在DF_1中的出现频率。这实现了值的按比例拆分。合并数据 (merge()): 最后，将经过标准化处理的DF_2与原始的DF_1根据键列进行合并，以生成最终结果。

示例数据准备

为了更好地说明，我们使用以下示例数据来模拟问题场景：

import pandas as pdimport numpy as np# DataFrame 1 (DF_1): 包含重复键data1 = {'id': ['A', 'B', 'A', 'C', 'A', 'A', 'C']}df1 = pd.DataFrame(data1)print("DF_1:")print(df1)# DataFrame 2 (DF_2): 包含唯一键和数据值data2 = {'id': ['A', 'B', 'C'],         'Col1': [400, 200, 600],         'Col2': [100, np.nan, 800],         'Col3': [20, 800, np.nan]}df2 = pd.DataFrame(data2)print("nDF_2:")print(df2)

DF_1:

  id0  A1  B2  A3  C4  A5  A6  C

DF_2:

  id  Col1   Col2   Col30  A   400  100.0   20.01  B   200    NaN  800.02  C   600  800.0    NaN

实现步骤与代码示例

以下是实现所需功能的Pandas代码：

out = (df1.reset_index() # 1. 重置df1的索引，将原索引保存为'index'列          .merge(df2.set_index('id') # 2. 将df2的'id'列设为索引                    .div(df1['id'].value_counts(), axis=0), # 3. 计算df1中'id'的频率并用其除df2的数据列                 on='id', # 4. 根据'id'列进行左合并                 how='left')          .set_index('index').reindex(df1.index) # 5. 恢复原始df1的索引和顺序      )print("nOutput DataFrame:")print(out)

输出结果:

  id   Col1   Col2   Col30  A  100.0   25.0    5.01  B  200.0    NaN  800.02  A  100.0   25.0    5.03  C  300.0  400.0    NaN4  A  100.0   25.0    5.05  A  100.0   25.0    5.06  C  300.0  400.0    NaN

代码详解

让我们逐行分析上述解决方案：

df1.reset_index():

这一步是为了在合并操作中保留DF_1的原始行顺序。reset_index()会将当前的DataFrame索引转换为一个普通列（默认命名为’index’），并为DataFrame设置一个新的默认整数索引。这样做可以确保在后续合并后，我们能通过这个保存下来的’index’列重新恢复DF_1的原始顺序。

df2.set_index(‘id’):

将DF_2的’id’列设置为其索引。这样做是为了方便后续的除法操作。当Series（来自value_counts()的结果）与DataFrame进行除法运算时，Pandas会尝试根据索引进行对齐。

.div(df1[‘id’].value_counts(), axis=0):

df1[‘id’].value_counts(): 计算DF_1中每个’id’键出现的次数。例如，对于我们的示例数据，结果可能是 A: 4, B: 1, C: 2。这个结果是一个Series，其索引是’id’值。.div(…, axis=0): 对df2.set_index(‘id’)后的DataFrame进行除法操作。axis=0表示按行进行操作，Pandas会根据DataFrame的索引（此时是’id’）与value_counts()结果的索引进行匹配。这样，DF_2中每个’id’对应的所有数值列都会被其在DF_1中的出现频率所除。例如，对于’A’，Col1的400会被4除，Col2的100会被4除，以此类推。

.merge(…, on=’id’, how=’left’):

将处理后的DF_2（现在其值为已拆分的）与df1.reset_index()的结果进行合并。on=’id’: 指定合并的键是’id’列。how=’left’: 执行左合并。这意味着合并结果将包含df1.reset_index()中的所有行，并根据’id’匹配从处理后的DF_2中引入相应的拆分值。由于DF_1中的’id’是重复的，合并后会生成多行，每行对应DF_1中的一个原始记录。

.set_index(‘index’).reindex(df1.index):

.set_index(‘index’): 在合并结果中，将之前保存的原始索引列’index’重新设为DataFrame的索引。.reindex(df1.index): 这一步是确保最终DataFrame的行顺序与原始DF_1的行顺序完全一致。reindex()会根据df1.index（即原始DF_1的索引）重新排列行。

注意事项

数据类型转换: 由于进行了除法运算，结果DataFrame中的数值列的数据类型可能会从整数变为浮点数（float）。这在大多数情况下是期望的，但如果需要整数结果，可能需要进行额外的类型转换（例如，使用astype(int)，但要处理NaN值）。缺失值 (NaN) 处理: 如果DF_2中的某些数值列本身就包含NaN，或者在除法操作后，某个键在DF_2中对应的列值为空，结果中也会保留NaN。例如，Col2在B行是NaN，Col3在C行是NaN，这些都会在最终输出中体现。键的完整性: 确保DF_1中的所有键都能在DF_2中找到匹配。如果DF_1中存在DF_2中没有的键，left merge会为这些键引入NaN值。反之，如果DF_2中存在DF_1中没有的键，这些键及其拆分后的值将不会出现在最终结果中。性能考量: 对于非常大的DataFrame，这种链式操作通常是高效的。Pandas底层使用优化的C语言实现，能够处理大量数据。然而，对于极大数据集，内存使用和计算时间仍需注意。

总结

通过巧妙地结合value_counts()、div()和merge()这三个核心Pandas函数，我们可以高效且精确地实现基于键匹配与计数的DataFrame值分配任务。这种方法不仅结构清晰，易于理解，而且在处理复杂的数据整合场景时表现出强大的灵活性和性能。掌握这些技巧，将极大地提升您在Pandas中进行数据清洗和转换的能力。

以上就是Pandas DataFrame中基于键匹配与计数的智能值分配教程的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1376899.html

c语言大数据排列数据清洗

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python游戏开发：动态调整下落精灵速度的教程

上一篇 2025年12月14日 16:18:28

Pydantic 字段别名进阶：处理复杂数据结构与现有键冲突

下一篇 2025年12月14日 16:18:45

用户投稿

Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py，它会输出每个函数的调用次数、总耗时、累积耗时等关键指标，帮助定位性能瓶颈；为进一步分析，可将结果保存为文件python -m cProfile -o ou…

程序猿
2026年5月10日
0000
用户投稿

python中numpy的用法

NumPy是Python中用于科学计算的强大库，它提供了以下功能：多维数组处理矩阵运算快速傅里叶变换（FFT）线性代数随机数生成 NumPy在Python中的强大功能 NumPy是Python中用于科学计算的一个强大且灵活的库。它提供了用于处理多维数组和矩阵的一组高效工具，是数据分析和机器学习项目的…

程序猿
2026年5月10日
1000
虫虫漫画直接进入官网入口_虫虫漫画网页版清爽版

虫虫漫画官网入口为www.ccmh.com，用户可直接通过浏览器访问，支持多端适配与账号同步功能，界面简洁无广告，提供海量国漫、日漫、韩漫资源，涵盖恋爱、玄幻等热门题材，更新及时，支持多种阅读模式及离线缓存，阅读体验流畅。虫虫漫画直接进入官网入口在哪里？这是不少网友都关注的，接下来由PHP小编为大…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

c语言short怎么设置

C语言中short类型数据为16位有符号整数，范围[-32768, 32767]。设置方法：1. 声明short变量（如：short myShort = 123;）；2. 使用短整型字面量（如：myShort = 123S;）；3. 使用类型转换（如：short myShort = (short) …

程序猿
2026年5月10日
0000
用户投稿

WebAssembly中导入JavaScript函数：无胶水代码集成指南

本文深入探讨了在WebAssembly模块中直接导入和使用JavaScript函数的机制，特别是当使用Emscripten的STANDALONE_WASM和SIDE_MODULE编译模式时。文章详细分析了TypeError: import object field ‘GOT.mem&#8…

程序猿
2026年5月10日
0000
用户投稿

C++怎么使用C++17的并行算法库_C++ std::execution与多核性能优化

c++kquote>C++17通过std::execution策略引入并行算法支持，需编译器（如GCC 8+）和线程库（如TBB）配合；提供seq、par、par_unseq三种策略控制执行模式；可用于sort、for_each等算法提升大数据性能，但需避免数据竞争，推荐使用reduce等安全…

程序猿
2026年5月10日
0000
用户投稿

c语言整除函数怎么表示

C语言中进行整数除法的函数是 /，其语法为 result = dividend / divisor，结果取整且不会有小数部分。 C 语言整除函数表示方法 C 语言中，用于进行整数除法的函数是 /。语法： result = dividend / divisor; 其中：立即学习“C语言免费学习笔记…

程序猿
2026年5月10日
0000
用户投稿

如何根据当前月份动态排序 1-12 月？

根据当前月份动态排序 1-12 月想要实现根据当前月份动态排序 1-12 月，可以通过参考以下方法：创建月份数组：首先，创建一个包含 1-12 月信息（如名称和值）的月份数组。获取当前月份：获取 javascript 中表示当前月份的数值（从 0 到 11）。重新排序月份数组：使用 javasc…

程序猿
2026年5月10日
0000
用户投稿

人工智能如何为 C 语言代码提供安全增强功能？

人工智能通过提供以下功能来提升 c 代码安全性：静态分析：识别潜在安全漏洞（例如缓冲区溢出）；动态分析：监控代码执行并检测异常行为；模糊测试：生成随机输入以测试代码的异常行为；自动化修复：建议修复措施或自动生成补丁程序。人工智能赋能 C 代码：提升安全性人工智能 (AI) 在 C 代码安全方面发…

程序猿
2026年5月10日
1000
用户投稿

HTML/CSS中链接与按钮的正确嵌套：避免文本超链接化与结构优化指南

本教程旨在解决HTML中链接()与按钮(button)或类按钮元素嵌套不当导致非预期文本超链接化的问题。我们将通过修正标签的错误闭合，并推荐使用等语义化元素作为链接内容并应用按钮样式，来创建功能正确、结构清晰且包含文本或图像的交互式按钮，从而提升页面的可维护性和用户体验。在网页开发中，我们经常需…

程序猿
2026年5月10日
0000
用户投稿

Pandas：基于条件和 Groupby 替换列中的特定字符

本文介绍了如何使用 Pandas 库，结合 groupby 函数和字符串操作，根据特定条件替换 DataFrame 列中的字符。通过累积计数和字典映射，能够灵活地修改列中的特定部分，并根据替换值调整相关文本，实现数据清洗和转换的目的。在数据分析和处理中，经常需要根据特定条件修改 DataFrame…

程序猿
2026年5月10日
0000
用户投稿

Go语言Cgo代码GDB调试失效：Go 1.1版本下的挑战与官方进展

本文探讨了go语言程序中cgo代码在使用gdb进行调试时遇到的挑战，特别指出go 1.1版本中存在的变量值显示异常问题。该问题是一个已知的官方缺陷（go issue 5221），导致在cgo交互部分gdb调试功能失效，而go 1.0版本则无此问题。文章将通过示例代码重现该现象，并阐述其根源及官方的解…

程序猿
2026年5月10日
0000
用户投稿

Angular mat-tab 高度自适应与布局优化指南

本教程旨在解决Angular Material mat-tab组件在Flexbox布局中无法自动填充父容器高度的问题。文章将深入分析问题根源，并提供使用CSS深度选择器（::ng-deep）精确控制mat-tab-body-wrapper和mat-tab-body高度的解决方案，确保组件在指定布局下…

程序猿
2026年5月10日
0000
用户投稿

PHP动态网页数据库备份恢复_PHP动态网页MySQL数据库备份教程

答案：PHP动态网页的MySQL数据库备份与恢复需通过定期导出SQL文件并安全存储来保障数据安全，核心方法包括使用mysqldump命令行工具实现高效灵活的自动化备份，利用phpMyAdmin图形化工具进行手动导出导入以降低操作门槛，以及通过PHP脚本调用系统命令将备份过程集成到应用中；恢复时可采用…

程序猿
2026年5月10日
0000
用户投稿

高效处理Selenium抓取中的特殊HTML字符：JavaScript注入法

本教程旨在解决使用Selenium的.text方法抓取网页内容时，因保留不可见特殊HTML字符（如连字符、非断行空格等）导致的数据清洗难题。文章核心内容是介绍如何通过driver.execute_script方法注入JavaScript代码，在提取文本之前直接从DOM中移除这些包含特殊字符的HTML…

程序猿
2026年5月10日
0000
用户投稿

html如何制作水印_HTML水印（文字/图片）添加与设置方法

使用CSS和HTML可实现网页水印，方法包括：一、通过background-image与data URI嵌入斜向文字水印；二、利用伪元素结合transform旋转生成叠加文字层；三、插入img标签或背景图设置固定位置图片水印；四、用Canvas绘制多行斜纹并转Base64作背景；五、通过禁用右键、屏…

程序猿
2026年5月10日
1000
用户投稿

使用CSS Grid实现不规则列布局：告别传统表格的限制

本教程详细阐述如何利用css grid实现复杂的、不规则的列布局，尤其适用于那些传统html表格难以实现的块状结构。文章将通过具体的css属性和html结构示例，指导读者如何定义网格、控制子项的跨度与位置，以及优化自动布局流程，从而高效构建灵活且响应式的页面布局。 1. 传统表格的局限与CSS Gr…

程序猿
2026年5月10日
0000
用户投稿

WordPress自定义主题中根据文章数量动态显示/隐藏“查看更多”按钮的教程

本教程旨在指导开发者如何在wordpress自定义主题中，根据特定文章类型和分类的实际数量，动态控制“查看更多”按钮的显示与隐藏。我们将利用 wp_query 及其 found_posts 属性，精确判断符合条件的文章总数，从而在有更多文章时显示按钮，在无文章时显示提示信息，优化用户体验。引言在…

程序猿
2026年5月10日
0000
用户投稿

CSS Flexbox：在居中对齐时优雅地控制元素间距

本文深入探讨了在css flexbox布局中，当容器使用`display: flex`和`justify-content: center`进行居中对齐时，如何有效地在子元素之间添加间距。我们将分析传统方法（如子元素的`margin`和容器的`padding`）的局限性，并重点介绍现代且推荐的`gap…

程序猿
2026年5月10日
0000
用户投稿

C#如何处理异常？C# try-catch-finally最佳实践与常见错误规避

正确使用 try-catch-finally 应捕获具体异常、用 finally 或 using 释放资源、避免空 catch 和裸抛异常，确保异常日志记录并保留堆栈跟踪，提升代码健壮性与可维护性。在C#中，异常处理是保障程序稳定运行的重要机制。正确使用 try-catch-finally 结构不…

程序猿
2026年5月10日
0000