高效处理Pandas DataFrame中基于键匹配与频率的数据拆分

程序猿 • 2025年12月14日 16:19:25 • 用户投稿 • 阅读 0

本教程详细介绍了如何在Pandas DataFrames中，根据一个DataFrame中键的出现频率，将另一个DataFrame中对应键的值进行拆分和分配。通过结合使用merge、value_counts和元素级除法，我们能够高效地将源数据按比例映射到目标数据结构中，从而解决数据重构和分配的常见问题。

引言与问题描述

在数据处理和分析中，我们经常会遇到需要根据特定条件重新分配或拆分数据集中的数值的情况。一个常见的场景是，我们有两个Pandas DataFrame：一个包含重复的键（例如产品ID、用户ID等），另一个包含这些键的唯一实例及其关联的数值数据。我们的目标是创建一个新的DataFrame，其中第二个DataFrame中的数值被“拆分”并分配给第一个DataFrame中每个匹配的键，拆分的依据是该键在第一个DataFrame中出现的次数。

例如，假设我们有以下两个DataFrame：

DataFrame 1 (df1): 包含重复的ID

ABACAAC

DataFrame 2 (df2): 包含唯一ID及其关联的数值

id Col1 Col2 Col3

A40010020B200800C600800

我们的目标是生成一个输出DataFrame，其中df2中Col1, Col2, Col3的值被其对应id在df1中出现的次数所除，然后合并到df1的结构中。

期望输出示例:

id Col1 Col2 Col3

A100255B200800A100255C300400A100255A100255C300400

解决方案：基于频率的数值拆分与合并

解决此问题的核心思路是：

计算第一个DataFrame中每个键的出现频率。使用这些频率对第二个DataFrame中对应的数值进行标准化（即除以频率）。将标准化后的第二个DataFrame与第一个DataFrame进行合并。

我们将使用Pandas库中的value_counts()、div()和merge()等函数来实现这一目标。

1. 准备示例数据

首先，我们创建上述示例中的df1和df2：

import pandas as pdimport numpy as np# DataFrame 1data1 = {'id': ['A', 'B', 'A', 'C', 'A', 'A', 'C']}df1 = pd.DataFrame(data1)# DataFrame 2data2 = {'id': ['A', 'B', 'C'],         'Col1': [400, 200, 600],         'Col2': [100, np.nan, 800],         'Col3': [20, 800, np.nan]}df2 = pd.DataFrame(data2)print("DataFrame 1 (df1):")print(df1)print("nDataFrame 2 (df2):")print(df2)

2. 计算键的出现频率

我们需要知道df1中每个id出现的次数。这可以通过value_counts()方法轻松实现：

id_counts = df1['id'].value_counts()print("nID Counts from df1:")print(id_counts)# 输出示例:# A    4# C    2# B    1# Name: id, dtype: int64

id_counts现在是一个Series，其索引是id值，值是它们在df1中出现的次数。

3. 标准化 df2 中的数值

接下来，我们将df2中的Col1, Col2, Col3列的值除以对应的id在df1中出现的频率。为了正确对齐，我们需要将df2的id列设置为索引，然后进行除法操作。

# 将df2的id列设为索引，以便与id_counts对齐df2_indexed = df2.set_index('id')# 使用div()方法进行除法操作，axis=0表示按行（即按索引）进行除法# Pandas会自动根据索引匹配id_counts中的值进行除法df2_standardized = df2_indexed.div(id_counts, axis=0)print("nStandardized DataFrame 2 (df2_standardized):")print(df2_standardized)# 输出示例:#      Col1   Col2   Col3# id                     # A   100.0   25.0    5.0# B   200.0    NaN  800.0# C   300.0  400.0    NaN

注意，Col2和Col3中的NaN值在除法后仍然保持为NaN，这是符合预期的行为。

4. 合并 DataFrames

现在，我们有了标准化后的df2_standardized，可以将其与原始的df1进行合并。为了保持df1的原始顺序和索引，我们可以在合并前先将df1的当前索引保存为一个临时列，合并后再恢复。

# 保存df1的原始索引，以便后续恢复df1_temp = df1.reset_index()# 使用merge进行左连接，on='id'表示根据id列进行匹配# df2_standardized的索引是id，会自动与df1_temp的id列匹配output_df = df1_temp.merge(df2_standardized, on='id', how='left')# 恢复df1的原始索引和顺序output_df = output_df.set_index('index').reindex(df1.index)print("nFinal Output DataFrame:")print(output_df)

完整代码示例:

将上述步骤整合到一起，得到最终的解决方案代码：

import pandas as pdimport numpy as np# 1. 准备示例数据data1 = {'id': ['A', 'B', 'A', 'C', 'A', 'A', 'C']}df1 = pd.DataFrame(data1)data2 = {'id': ['A', 'B', 'C'],         'Col1': [400, 200, 600],         'Col2': [100, np.nan, 800],         'Col3': [20, 800, np.nan]}df2 = pd.DataFrame(data2)# 2. 计算df1中id的出现频率id_counts = df1['id'].value_counts()# 3. 标准化df2中的数值：将df2的id列设为索引，然后除以频率#    axis=0确保按行（即按id）进行除法df2_standardized = df2.set_index('id').div(id_counts, axis=0)# 4. 合并DataFrames并恢复原始索引#    a. reset_index()保存df1的原始索引#    b. merge()进行左连接，将标准化后的数据合并到df1的结构中#    c. set_index()和reindex()恢复df1的原始索引和顺序out = (df1.reset_index()          .merge(df2_standardized, on='id', how='left')          .set_index('index').reindex(df1.index)      )print(out)

输出结果:

  id   Col1   Col2   Col30  A  100.0   25.0    5.01  B  200.0    NaN  800.02  A  100.0   25.0    5.03  C  300.0  400.0    NaN4  A  100.0   25.0    5.05  A  100.0   25.0    5.06  C  300.0  400.0    NaN

注意事项与总结

索引管理: 在进行merge操作时，尤其当需要保持原始DataFrame的行顺序时，reset_index()和set_index().reindex()的组合非常有用。reset_index()将当前索引转换为一个普通列，merge完成后，set_index()将该列重新设为索引，而reindex(df1.index)则确保了最终DataFrame的行顺序与原始df1完全一致。数据类型: 除法操作通常会将整数类型转换为浮点数类型，以处理可能的小数结果。这是Pandas的默认行为，也是合理的。缺失值处理: 如果df2中存在NaN值，或者某个id在df1中出现但在df2中没有对应行，合并后将自然地产生NaN值。这通常是期望的行为，但如果需要，可以使用fillna()等方法进行后续处理。性能: 对于大型数据集，这种基于Pandas内置函数的操作通常比手动循环迭代更高效。value_counts()、div()和merge()都经过优化，能够处理大量数据。灵活性: 这种方法不仅限于简单的数值拆分，也可以扩展到更复杂的场景，例如根据不同权重进行分配，只需调整div()操作前的计算逻辑即可。

通过以上步骤，我们成功地解决了根据键匹配和频率拆分DataFrame数值的问题，提供了一个清晰、高效且易于理解的Pandas解决方案。

以上就是高效处理Pandas DataFrame中基于键匹配与频率的数据拆分的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1376913.html

常见问题

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

如何高效地将 Pandas DataFrame 列中的数值限制在 360 以内

上一篇 2025年12月14日 16:19:22

将Google API响应转换为Pandas DataFrame：实战指南

下一篇 2025年12月14日 16:19:43

用户投稿

JavaScript计算器开发：解决数值显示与初始化问题

本教程深入探讨了使用JavaScript构建计算器时常见的数值显示异常问题，特别是由于类属性未初始化导致的`Cannot read properties of undefined`错误。我们将详细分析问题根源，并通过在构造函数中调用初始化方法来解决该问题，同时优化显示逻辑，确保计算器功能稳定且界面显…

程序猿
2026年5月10日
0000
用户投稿

使用 Ajax 和 FormData 实现文件上传及文本数据提交的完整教程

本文旨在解决在使用 Ajax 和 FormData 进行文件上传时，遇到的 $_POST 和 $_FILES 为空的问题。通过详细的代码示例和解释，我们将展示如何正确地构建 FormData 对象，并通过 Ajax 将文件和文本数据发送到服务器端，同时避免常见的错误配置，确保数据能够成功地被 PHP…

程序猿
2026年5月10日
0000
用户投稿

C++如何编译和链接_C++从源码到可执行文件的过程解析

c++kquote>预处理展开宏和头文件，编译生成汇编代码，汇编转为机器码，链接合并目标文件与库生成可执行程序。当你写完一段C++代码，比如一个简单的hello world程序，最终能运行起来，背后其实经历了一系列步骤：预处理、编译、汇编和链接。这个过程将人类可读的源码转换成机器可以执行的程…

程序猿
2026年5月10日
0000
用户投稿

javascript生命周期钩子是什么_组件有哪些关键阶段？

JavaScript原生无生命周期钩子，这是Vue、React等框架为组件设计的机制；Vue按创建、挂载、更新、卸载四阶段提供对应钩子，React类组件有明确生命周期方法，函数组件则通过useEffect模拟，其核心价值在于精准控制执行时机以避免DOM操作错误和内存泄漏。 JavaScript 本身…

程序猿
2026年5月10日
0000
用户投稿

JavaScript中实时获取表单输入值：避免常见陷阱

本教程深入探讨在javascript中如何正确地实时获取html表单输入框的值。许多开发者在初次尝试时可能遇到`alert`函数无法显示最新输入内容的问题，这通常是由于变量作用域和代码执行时机不当所致。文章将通过对比错误与正确的代码示例，详细解释其背后的原理，并提供最佳实践，确保您能够准确捕获用户在…

程序猿
2026年5月10日
0000
用户投稿

解决Python脚本中相对路径文件找不到的常见问题与策略

本文旨在解决python脚本中因相对路径处理不当导致的文件找不到错误，尤其是在项目迁移后。文章将深入探讨python中相对路径的工作原理、当前工作目录（cwd）的影响，并提供使用`os.getcwd()`诊断问题以及利用`os.path.dirname(__file__)`结合`os.path.jo…

程序猿
2026年5月10日
0000
用户投稿

Flet应用中正确显示AlertDialog对话框的指南

本文旨在指导flet开发者如何正确显示`alertdialog`对话框。针对在`usercontrol`中直接设置`dlg_modal.open = true`和调用`self.update()`无法显示对话框的常见问题，文章详细阐述了其原因，并提供了使用`e.page.show_dialog_as…

程序猿
2026年5月10日
0000
用户投稿

C++怎么理解虚继承和虚基类_C++解决菱形继承问题的方法

菱形继承指一个类通过多条路径继承同一基类，导致基类成员重复；例如D继承B和C，而B、C均继承A，使D包含两份A的成员，引发访问歧义。使用虚继承可解决此问题：将B和C对A的继承声明为virtual public，确保D中仅保留一份A的实例。此时，虚基类A由最派生类D直接初始化，且仅调用一次构造函数，避…

程序猿
2026年5月10日
0000
用户投稿

在Python Flask中实现在线图片URL到Blurhash编码

本教程详细介绍了如何在python flask应用中，将在线图片url转换为blurhash键。针对官方文档主要侧重本地文件处理的局限，文章通过整合`requests`库下载图片内容和`blurhash-python`库进行编码，提供了完整的解决方案，并包含代码示例、依赖安装、错误处理及在flask…

程序猿
2026年5月10日
0000
用户投稿

深入理解React组件命名规范：解决组件不渲染的常见陷阱

本教程深入探讨react组件命名约定在组件渲染中的关键作用。我们将解释为何自定义组件名必须以大写字母开头（pascalcase），以避免与原生html元素混淆。通过对比错误和正确的代码示例，教程将指导开发者如何遵循这一核心规范，从而解决组件不显示、`is defined but never used…

程序猿
2026年5月10日
0000
用户投稿

为什么PHP调用文件权限设置函数无效_PHP文件权限设置函数无效问题排查与chmod函数教程

chmod调用无效主因是执行用户无权或路径错误。1. 确认PHP进程用户（如www-data）对文件有所有权或写权限，用ls -l和ps aux检查；2. 使用绝对路径并验证文件存在，推荐__DIR__ . ‘/file’配合file_exists()；3. 检查php.in…

程序猿
2026年5月10日
0000
用户投稿

DeAgentAI(AIA)币是什么？值得投资吗？DeAgentAI上线指南、价格预测及路线图介绍

目录 DeAgentAI (AIA) 上市：关键细节和交易时间表关键上市信息DeAgentAI（AIA）价格预测：上市后DeAgentAI (AIA) 是什么：解释DeAgentAI (AIA) 为何脱颖而出？DeAgentAI (AIA) 生态系统：其运作方式认识 DeAgentAI (AIA) …

程序猿
2026年5月10日
0000
用户投稿

HTML文本排版常见问题有哪些_HTML文本排版常见问题如何快速排查与解决

空白符处理不当导致格式丢失，可用标签或CSS的white-space属性解决；2. 段落间距不一致需重置margin并使用CSS Reset；3. 字体异常应检查font-family备选和@font-face加载；4. 文本溢出需设置word-wrap、text-overflow等控制换行与截断。…

程序猿
2026年5月10日
0000
用户投稿

解决PHP file() 函数读取文件时因换行符导致数据比较失败的问题

当使用php的`file()`函数读取文件内容时，每行数据会保留其原始的换行符（如`n`或`rn`）。这导致直接将从文件读取的字符串与用户输入或其他不含换行符的字符串进行比较时，匹配会失败。本文将详细介绍这一常见问题的原因，并提供两种有效的解决方案：使用`trim()`或`rtrim()`函数清除换…

程序猿
2026年5月10日
0000
用户投稿

Velas (VLX) 币是什么？VLX 代币用途、特征以及2025年价格预测

velas 正在获得关注，作为一个设计为快速、可及及可扩展的区块链，特别是针对那些想要熟悉工具而又无需面对通常性能限制的开发者。 Binance币安欧易OKX ️ Huobi火币️ 建基于Solana框架并完全支持的形状以太坊虚拟机, Velas 将两个强大的世界融合成一个生态系统。其原生资产 …

程序猿
2026年5月10日
1000
用户投稿

Angular Material Table 数据源的正确绑定与异步数据处理

在 Angular 应用中，将异步获取的数据正确绑定到 Material Table 的 `MatTableDataSource` 是一个常见挑战。本文将深入探讨 `MatTableDataSource` 的初始化时机，特别是如何处理数据加载的异步性，确保表格能够实时、准确地渲染数据，并提供一个结构…

程序猿
2026年5月10日
0000
用户投稿

SQL查询：精确判断事件过期，结合日期与时间列

本文旨在解决数据库中事件过期判断不精确的问题，特别是当事件的过期日期和时间分别存储在不同列时。我们将探讨两种主流的sql查询策略：一种是利用逻辑运算符`or`和`and`进行分情况判断，另一种是通过合并日期和时间列为单一时间戳进行直接比较。文章将详细阐述每种方法的实现方式、适用场景及相关注意事项，确…

程序猿
2026年5月10日
1000
用户投稿

解决CSS按钮滑动背景覆盖文本问题：确保::after伪元素与文本层级

本文详细介绍了在使用css `::after` 伪元素为按钮创建滑动背景效果时，文本被背景覆盖的常见问题及其解决方案。核心方法是通过在按钮内部包裹文本，并为该文本元素设置 `position: relative` 和 `z-index: 1`，从而确保文本始终显示在动态背景之上，实现预期的视觉效果。…

程序猿
2026年5月10日
0000
用户投稿

解决CSS媒体查询不生效问题：常见拼写错误解析与响应式布局实践

本文旨在解决css媒体查询不生效的常见问题，特别是由于拼写错误（如将`max-width`误写为`max-with`）导致的布局失效。文章将通过具体代码示例，详细解析正确的媒体查询语法及其在flex布局中的应用，并强调`meta viewport`的重要性，帮助开发者构建健壮的响应式网页。理解CS…

程序猿
2026年5月10日
0000
用户投稿

CS50P作业调试指南：解决Check50输出与结构不符问题

本教程旨在解决CS50P课程中check50测试失败的常见问题，尤其是在手动测试通过但自动化测试不通过的场景。文章以“Little Professor”作业为例，深入探讨check50对程序结构和输出格式的严格要求，并提供具体的代码优化策略，帮助开发者理解并遵循CS50P的编程规范，从而成功通过所有…

程序猿
2026年5月10日
0000