Pandas DataFrame分组条件赋值：基于同组特定类型行更新值

程序猿 • 2025年11月29日 11:33:17 • 后端开发 • 阅读 0

本教程详细讲解如何在Pandas DataFrame中实现复杂的分组条件赋值。针对特定场景，我们将演示如何根据“First Name”和“Last Name”分组，将类型为“CA”的行的“Value”列更新为同组中类型为“GCA”的行的“Value”。文章通过实例代码，深入解析了利用set_index进行高效查找和%ignore_a_1%ly进行条件更新的实现策略，并探讨了相关注意事项。

问题背景与示例数据

在数据处理中，我们经常会遇到需要根据特定条件在数据组内进行值更新的场景。例如，给定一个包含个人信息、类型和值的dataframe，我们的目标是：对于每个由“first name”和“last name”定义的分组，如果存在类型为“ca”的行，则将其“value”列更新为同组中类型为“gca”的行的“value”。

考虑以下示例DataFrame：

import pandas as pddata = {    'First Name': ['Alice', 'Alice', 'Alice', 'Alice', 'Bob'],    'Last Name': ['Johnson', 'Johnson', 'Johnson', 'Johnson', 'Jack'],    'Type': ['CA', 'DA', 'FA', 'GCA', 'CA'],    'Value': [25, 30, 35, 40, 50]}df = pd.DataFrame(data)print("原始DataFrame:")print(df)

在上述数据中，对于“Alice Johnson”这个分组，类型为“CA”的行的原始“Value”是25，而类型为“GCA”的行的“Value”是40。我们的目标是将“Alice Johnson”分组中“CA”类型的“Value”从25更新为40。对于“Bob Jack”分组，由于没有“GCA”类型行，其“CA”类型的“Value”应保持不变。

核心问题分析

解决此问题的关键在于：

识别分组： 通过“First Name”和“Last Name”确定唯一的个人分组。提取源值： 在每个分组中，找到类型为“GCA”的行的“Value”。定位目标行： 找到类型为“CA”的行，这些行是需要被更新的目标。条件赋值： 将提取到的“GCA”值映射到对应的“CA”行上。

解决方案：分步实现

我们将使用Pandas的强大功能来实现这一目标。核心思路是首先创建一个包含所有“GCA”值的查找表，然后遍历需要更新的“CA”行，通过查找表获取并应用新值。

1. 准备数据

首先，确保我们有一个可操作的DataFrame副本，以避免直接修改原始数据。

import pandas as pddata = {    'First Name': ['Alice', 'Alice', 'Alice', 'Alice', 'Bob'],    'Last Name': ['Johnson', 'Johnson', 'Johnson', 'Johnson', 'Jack'],    'Type': ['CA', 'DA', 'FA', 'GCA', 'CA'],    'Value': [25, 30, 35, 40, 50]}df = pd.DataFrame(data)updated_df = df.copy() # 创建副本进行操作

2. 提取源值（GCA值查找表）

为了高效地查找每个分组的“GCA”值，我们可以创建一个Series，其索引是“First Name”和“Last Name”的组合，值为对应的“GCA”类型行的“Value”。

# 提取所有类型为'GCA'的行，并将其'First Name'和'Last Name'设置为复合索引# 这样可以通过(First Name, Last Name)快速查找对应的Valuegca_values = updated_df[updated_df['Type'] == 'GCA'].set_index(['First Name', 'Last Name'])['Value']print("nGCA值查找表:")print(gca_values)

输出的gca_values将是一个Series，例如：

GCA值查找表:First Name  Last NameAlice       Johnson      40Name: Value, dtype: int64

这使得我们能够通过一个元组(First Name, Last Name)快速获取相应的GCA值。

Magic Write

Canva旗下AI文案生成器

75 查看详情

3. 应用条件更新

现在，我们需要定位所有类型为“CA”的行，并根据gca_values查找表更新它们的“Value”列。我们使用loc进行行选择和列赋值，并结合apply函数来处理每行的数据。

# 使用loc选择所有Type为'CA'的行，并更新其'Value'列# updated_df[updated_df['Type'] == 'CA'].apply(...) 会对所有Type为'CA'的行应用一个函数updated_df.loc[df['Type'] == 'CA', 'Value'] = updated_df[updated_df['Type'] == 'CA'].apply(    # 对于每一行（row），尝试从gca_values中获取对应分组的GCA值    # 如果找不到（即该分组没有GCA类型），则保留row['Value']的原始值    lambda row: gca_values.get((row['First Name'], row['Last Name']), row['Value']), axis=1)print("n更新后的DataFrame:")print(updated_df)

更新后的DataFrame输出：

更新后的DataFrame:  First Name Last Name Type  Value0      Alice   Johnson   CA     401      Alice   Johnson   DA     302      Alice   Johnson   FA     353      Alice   Johnson  GCA     404        Bob      Jack   CA     50

可以看到，”Alice Johnson”分组中类型为”CA”的行的”Value”已从25更新为40，而”Bob Jack”分组中类型为”CA”的行的”Value”保持50不变，因为该分组没有对应的”GCA”类型行。

完整代码示例

将上述步骤整合，形成完整的解决方案代码：

import pandas as pd# 原始数据data = {    'First Name': ['Alice', 'Alice', 'Alice', 'Alice', 'Bob'],    'Last Name': ['Johnson', 'Johnson', 'Johnson', 'Johnson', 'Jack'],    'Type': ['CA', 'DA', 'FA', 'GCA', 'CA'],    'Value': [25, 30, 35, 40, 50]}df = pd.DataFrame(data)print("原始DataFrame:")print(df)# 创建DataFrame副本进行操作updated_df = df.copy()# 1. 提取所有类型为'GCA'的行，并以'First Name'和'Last Name'作为复合索引创建查找表# 这样可以通过(First Name, Last Name)元组快速查找对应的Valuegca_values = updated_df[updated_df['Type'] == 'GCA'].set_index(['First Name', 'Last Name'])['Value']print("nGCA值查找表 (gca_values):")print(gca_values)# 2. 定位需要更新的行（Type为'CA'的行），并应用条件赋值逻辑# updated_df.loc[df['Type'] == 'CA', 'Value'] 选择所有Type为'CA'的行的'Value'列进行赋值# updated_df[updated_df['Type'] == 'CA'].apply(...) 对这些选定的行应用一个lambda函数updated_df.loc[df['Type'] == 'CA', 'Value'] = updated_df[updated_df['Type'] == 'CA'].apply(    # lambda函数：对于每一行（row），尝试从gca_values中获取其对应分组的GCA值    # .get()方法允许我们指定一个默认值。如果通过(First Name, Last Name)找不到GCA值，    # 则返回该行原始的Value，确保没有GCA的CA行值保持不变。    lambda row: gca_values.get((row['First Name'], row['Last Name']), row['Value']),     axis=1 # 沿行方向应用函数)print("n更新后的DataFrame:")print(updated_df)

代码解析

df.copy(): 创建原始DataFrame的副本，以避免在原地修改数据，这是一种良好的实践。updated_df[updated_df[‘Type’] == ‘GCA’]: 筛选出所有Type列值为’GCA’的行。.set_index([‘First Name’, ‘Last Name’])[‘Value’]: 将筛选出的DataFrame的索引设置为’First Name’和’Last Name’的组合，然后选择’Value’列。这创建了一个Pandas Series (gca_values)，其中索引是多级索引（由’First Name’和’Last Name’组成），值是对应的’Value’。这种结构非常适合快速查找。updated_df.loc[df[‘Type’] == ‘CA’, ‘Value’] = …: 这是Pandas中进行条件赋值的标准方法。它通过布尔索引df[‘Type’] == ‘CA’选择所有Type为’CA’的行，并指定要修改的列是’Value’。等号右侧是计算出的新值。updated_df[updated_df[‘Type’] == ‘CA’].apply(lambda row: …, axis=1): 这部分代码对所有Type为’CA’的行逐行应用一个匿名函数（lambda函数）。axis=1表示函数将作用于每一行。gca_values.get((row[‘First Name’], row[‘Last Name’]), row[‘Value’]): 这是核心的查找逻辑。gca_values.get(key, default_value)方法用于从Series中获取指定键的值。如果键存在，则返回对应的值；如果键不存在，则返回default_value。key是(row[‘First Name’], row[‘Last Name’])，一个元组，用于匹配gca_values的多级索引。default_value是row[‘Value’]，即当前“CA”行的原始值。这意味着如果某个分组没有“GCA”类型行，那么该分组中“CA”类型行的“Value”将保持不变。

注意事项与扩展

处理缺失的GCA值： gca_values.get(key, default_value)的default_value参数至关重要。它确保了当一个分组中不存在’GCA’类型的行时，’CA’类型的行不会因为查找失败而出现错误或被赋值为NaN，而是保留其原始值。性能考量： apply函数虽然灵活且易于理解，但在处理非常大的DataFrame时，其性能可能不如完全向量化的操作。然而，对于这种需要跨行（通过索引查找）进行复杂条件判断的场景，apply通常是可读性和性能之间的一个良好平衡点。对于此特定问题，apply结合预先构建的查找表是高效且简洁的。多个GCA值的情况： 如果一个分组中存在多个’GCA’类型的行，set_index([‘First Name’, ‘Last Name’])在默认情况下会保留第一个或最后一个遇到的值（取决于Pandas版本和内部实现，或者如果索引不唯一，后续的get操作可能会只返回第一个匹配项）。如果需要不同的行为（例如，取所有’GCA’值的平均值、最大值或最小值），则需要在创建gca_values之前对数据进行聚合操作，例如：

# 示例：如果需要取多个GCA值的平均值# gca_values = updated_df[updated_df['Type'] == 'GCA'].groupby(['First Name', 'Last Name'])['Value'].mean()

根据具体业务需求调整聚合逻辑。

可读性与维护性： 将查找逻辑封装在gca_values中，并使用apply进行条件更新，使得代码逻辑清晰，易于理解和维护。

总结

本教程展示了如何利用Pandas的强大功能，通过构建查找表和应用条件赋值逻辑，高效地解决DataFrame中基于分组的复杂值更新问题。通过set_index创建快速查找表，并结合loc和apply实现逐行条件更新，我们能够精确地控制数据修改，同时兼顾代码的可读性和健壮性。理解并掌握这种模式，对于处理各种复杂的DataFrame数据转换任务都非常有益。

以上就是Pandas DataFrame分组条件赋值：基于同组特定类型行更新值的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/928831.html

a ai app j o

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

274.3K 文章

0 评论

1 粉丝

这个人很懒，什么都没有留下～

如何构建可复用的PHP环境模板本地和生产环境快速搭建

上一篇 2025年11月29日 11:33:08

Pandas apply在空DataFrame上的行为解析与列结构保持策略

下一篇 2025年11月29日 11:33:38

好文分享

深度挖掘”被低估的3大本土概念币” 翻倍在即

在数字资产的广阔海洋中，发掘那些价值尚未被市场充分认识的“璞玉”是许多参与者的目标。本文将深入探讨三个源于本土智慧、具备深厚技术底蕴且当前市值可能被低估的概念项目。我们将详细阐述这些项目的核心技术、生态应用以及它们为何具备显著的增长潜力，旨在为读者提供一个清晰的分析框架。 2025主流加密货币交易所…

程序猿
2025年12月8日
0000
香港概念币价差惊人！ “免税+合规”双概念加持这些币种成外资新宠

近期，市场上所谓的“香港概念币”表现出惊人的价差，并迅速成为国际资本追逐的新焦点。这一现象的背后，是香港地区在数字资产领域推出的“免税”与“合规”两大核心政策所形成的强大吸引力。本文将深入剖析这一趋势的成因，详细阐述合规性如何为资本提供安全港，免税政策如何成为财富效应的放大器，并结合市场上的综合评论…

程序猿
2025年12月8日 • 好文分享
0000
好文分享

抓住元宇宙风口！这5条公链或将诞生下个以太坊

随着元宇宙概念的持续升温，其背后依赖的底层技术——公链，正迎来前所未有的发展机遇。本文将深入探讨五条在性能、生态和创新方面表现突出的公链，它们凭借各自的独特优势，正在为构建宏大的元宇宙世界奠定基础，并被市场认为有潜力成为下一个以太坊级别的基础设施。 2025主流加密货币交易所官网注册地址推荐：欧易…

程序猿
2025年12月8日
0000
好文分享

盘点最具潜力的公链代币TOP10

公链作为去中心化世界的基础设施，其原生代币的价值与潜力一直是市场关注的焦点。本文将深入探讨当前市场中被认为最具潜力的十种公链代币，我们将从技术创新、生态系统发展、社区共识以及市场综合反馈等多个维度进行分析。文章将逐一介绍每个公链的核心特点以及其代币的价值支撑，通过对这些项目解决特定问题（如扩展性、互…

程序猿
2025年12月8日
1000
好文分享

稳定币官网入口稳定币官网地址链接

稳定币官网信息可通过直接访问获取。1.USDT官网提供储备报告；2.USDC官网发布审计证明；3.DAI官网展示去中心化机制；4.TUSD官网支持链上验证；5.BUSD官网说明赎回政策。此外，普通用户可通过币安、欧易、火币等交易所便捷交易稳定币。访问时需核对域名、使用书签并警惕弹窗以确保安全。稳定…

程序猿
2025年12月8日
0000
好文分享

USDT和USDC哪个更安全？2025年稳定币市值排名

USDT在流动性方面占优，USDC在安全与合规上更强。1.USDT储备含商业票据透明度较低，而USDC储备为现金及美债且经审计更透明；2.USDC受美国严格监管合规性更高；3.USDT因先发优势市场接受度和流动性更广。预测2025年稳定币市值排名依次为：1.USDT因网络效应稳固第一；2.USDC借…

程序猿
2025年12月8日
0000
好文分享

公链是什么意思？十大公链优缺点对比表

本文将解释公链的核心概念及其工作原理；接着，会探讨在评估不同公链时需要考虑的关键因素，并概述一些流行公链之间在这些方面的普遍差异，帮助读者理解它们各自的特点和权衡，尽管无法在此直接呈现详细的“十大”对比表格，但会介绍对比时需要关注的重点。 2025主流加密货币交易所官网注册地址推荐：欧易OKX： …

程序猿
2025年12月8日
0000
好文分享

稳定币存在哪些风险？

稳定币虽被视为加密世界的“避风港”，但其存在五大核心风险：1. 脱钩风险，因市场恐慌或机制缺陷导致价格暴跌；2. 储备资产风险，抵押物不透明或贬值引发信任危机；3. 监管风险，政策变动可能导致交易受限或资产冻结；4. 对手方与运营风险，发行方或交易平台出现问题威胁资产安全；5. 智能合约与技术风险，…

程序猿
2025年12月8日
0000
稳定币的发行机制是怎样的？

稳定币看行情交易平台：欧易OKX： Binance币安：火币Huobi： Gateio芝麻开门：稳定币主要通过锚定特定资产或依靠算法来维持价值稳定，常见的发行机制有法币抵押、加密资产抵押和算法控制三种。具体如下：法币抵押型：以美元等法币为储备，发行方每发行 1 枚稳定币，需在银行或其他金融机…

程序猿
好文分享 2025年12月8日
0000
好文分享

稳定币与传统加密货币的区别及投资优势

稳定币与传统加密货币的核心差异体现在价格稳定性、发行机制和应用场景。1. 价格方面，稳定币锚定法币或资产，波动极小，而传统加密货币价格波动剧烈；2. 发行机制上，稳定币依赖储备或算法调节，传统加密货币则基于去中心化机制发行；3. 应用场景中，稳定币主要用于交易中转、支付和DeFi抵押，传统加密货币则…

程序猿
2025年12月8日
0000
好文分享

Altcoins Under the Microscope: Analyst’s Take on the Best Projects 聚光灯下的山寨币：分析师对最佳项目的看法

加密分析师聚焦具备实际应用价值的山寨币。本文将剖析当前备受瞩目的几个优质山寨币项目，包括qubetics、avalanche和dogecoin等。山寨币观察室：分析师眼中的潜力项目山寨币市场如同未开发的边疆般复杂多变，但一些项目正逐步崭露头角。我们来看看加密领域专家对目前最具潜力的山寨币的看法。…

程序猿
2025年12月8日
0000
好文分享

加密货币、区块有向无环图（BlockDAG）与盈利引擎：2025年最热趋势是什么？

探索 2025 年加密货币、blockdag 技术与盈利引擎的发展趋势。掌握影响区块链未来的重要动向及核心参与者。 2025 年的加密世界正经历一场技术革新，特别是将区块链与人工智能融合的项目正在崛起。让我们一起深入了解这些关键趋势和重要项目，聚焦 BlockDAG 等前沿科技如何推动数字资产迈向新…

程序猿
2025年12月8日
0000
好文分享

加密货币、CoinGecko 与七月份的价格爆发：什么最热门？

深入了解7月加密市场的飙升：聚焦coingecko上表现突出的bonk、plume和moodeng。探索这一快速演变领域的趋势、洞察与潜在走势。加密货币、CoinGecko与7月价格爆发：哪些项目正在走热？ 7月的加密市场异常火热，CoinGecko成为追踪行情变化的重要风向标。我们一起来看看其中…

程序猿
2025年12月8日
0000
好文分享

稳定币usdt 稳定币概念稳定币龙头是哪些

稳定币是加密货币市场中用于规避波动的工具，其价值通常与美元等资产挂钩。主流类型包括法币抵押型（如USDT、USDC）、加密货币抵押型（如DAI）和算法稳定币。2025年推荐的交易平台有欧易OKX、币安Binance和火币HTX等。稳定币作为加密世界与现实法定货币之间的桥梁，为用户提供了一种规避市场…

程序猿
2025年12月8日
0000
好文分享

稳定币是什么？为什么抖音热搜都在讨论？

稳定币是一种与美元等资产挂钩、旨在保持价值稳定的加密货币，主要分为法币抵押、加密货币抵押和算法三种类型。1.法币抵押型如USDT、USCD由美元储备支持；2.加密货币抵押型如DAI需超额抵押其他币种；3.算法型依赖智能合约调节供应量但风险较高。其在抖音等平台热议的原因包括：作为加密市场下跌时的避险工…

程序猿
2025年12月8日
0000
好文分享

稳定币龙头股排名前十名

稳定币作为加密世界的基石，为市场提供了重要的价值锚定和避险工具。本文将为您盘点当前市值和影响力排名前十的稳定币项目，帮助您了解它们各自的特点、优势以及主要的交易平台。 2025年稳定币交易所：欧易okx：币安binance：火币htx：稳定币项目综合实力排名 1. Tether (U…

程序猿
2025年12月8日
0000
好文分享

一文读懂稳定币：定义、原理与核心作用

稳定币是一种通过锚定特定资产来维持币值稳定的加密货币，其核心特征是价格波动极小，例如USDT、USDC等与美元保持1:1锚定。其维持稳定的原理主要有三种：1. 资产抵押，发行方储备等量法定货币，如发行1亿USDC需储备1亿美元现金；2. 加密资产抵押，如DAI通过抵押ETH并由智能合约调节抵押率；3…

程序猿
2025年12月8日
0000
好文分享

稳定币是什么币圈三大稳定币

在价格波动剧烈的加密货币世界里，稳定币提供了一种价值稳定的数字资产，充当着连接传统金融与加密生态的关键桥梁。本文将详细解释稳定币的概念，并介绍目前市场上最具影响力的三大稳定币。 2025年稳定币交易所：欧易okx：币安binance：火币htx：稳定币是什么？稳定币（Stablec…

程序猿
2025年12月8日
0000
好文分享

稳定币有哪几种数字货币稳定币有哪些

%ignore_a_1%是加密世界的重要基石，它通过锚定美元等法定货币来维持价格稳定，为波动的加密市场提供了避风港和交易媒介。本文将详细介绍当前市场上主流的数字货币稳定币，帮助你了解它们的特点和区别。 2025年稳定币交易所：欧易okx官网：币安binance官网：火币htx官网：稳定币的…

程序猿
2025年12月8日
0000
好文分享

NALA币属于什么链上的_NALA币是什么链上的币

【权威推荐】2025主流数字货币交易平台合集 Binance币安官网直达：安卓安装包下载：欧易OKX ️ 官网直达：安卓安装包下载： Huobi火币️ 官网直达：安卓安装包下载： NALA币属于什么链上的？NALA币是什么链上的币 NALA币是一种基于区块链技术发行的数字资产，明确归属于特…

程序猿
2025年12月8日
0000