基于键列高效映射Pandas DataFrame多列数据教程

程序猿 • 2025年11月28日 22:48:32 • 后端开发 • 阅读 0

本教程旨在解决pandas dataframe中根据特定“键”列的值，对多列进行条件性映射和数据填充的问题。传统上，这可能涉及重复使用`numpy.select`，效率较低。文章将深入探讨两种高效的向量化方法：一是利用`pd.get_dummies`结合`df.mask`创建并应用布尔掩码；二是采用数据重塑技术，通过`melt`、`merge`和`unstack`实现。这些方法不仅提升了处理大规模数据的性能，也提高了代码的可读性和简洁性。

Pandas DataFrame多列条件映射的优化策略

在数据处理和分析中，我们经常需要根据DataFrame中某一“键”列的值，有条件地更新或填充其他列的数据。例如，当“键”列为’key1’时，我们可能只关心’colA’和’colD’的值；当“键”列为’key2’时，只关心’colB’的值，而其他不相关的列则应被标记为’NA’。

原始的实现方式可能涉及为每个目标列独立调用numpy.select，这在大规模数据集或需要处理大量目标列时会显得冗余且效率低下。本教程将介绍两种更高效、更具向量化特性的方法来解决这一问题，以提升代码性能和可维护性。

我们将使用以下示例DataFrame作为演示：

import pandas as pdimport numpy as npdata = {    'key': ['key1', 'key2', 'key3', 'key1', 'key2'],    'colA': ['value1A', 'value2A', 'value3A', 'value4A', 'value5A'],    'colB': ['value1B', 'value2B', 'value3B', 'value4B', 'value5B'],    'colC': ['value1C', 'value2C', 'value3C', 'value4C', 'value5C'],    'colD': ['value1D', 'value2D', 'value3D', 'value4D', 'value5D']}df = pd.DataFrame(data)print("原始DataFrame:")print(df)

输出：

原始DataFrame:    key     colA     colB     colC     colD0  key1  value1A  value1B  value1C  value1D1  key2  value2A  value2B  value2C  value2D2  key3  value3A  value3B  value3C  value3D3  key1  value4A  value4B  value4C  value4D4  key2  value5A  value5B  value5C  value5D

我们的目标是根据key列的值，保留相应的列数据，并将其他不相关的列数据替换为’NA’。例如，对于key1行，colA和colD应保留，colB和colC应变为’NA’。

方法一：利用布尔掩码 (pd.get_dummies 和 df.mask)

这种方法的核心思想是构建一个与DataFrame形状匹配的布尔掩码，该掩码指示哪些单元格应该保留其原始值，哪些应该被替换。然后，使用DataFrame.mask()方法根据这个掩码进行条件性替换。

定义映射关系：首先，我们需要一个字典来定义每个key值对应哪些列是“有效”的。

d = {'key1': ['colA', 'colD'],     'key2': ['colB'],     'key3': ['colC']}

生成布尔掩码：这一步是关键。我们将利用pd.Series(d).explode()将字典展平，然后使用pd.get_dummies()将其转换为一个指示每个key对应哪些列的稀疏矩阵，最后通过groupby和max聚合，得到一个清晰的key到列的布尔映射。

s = pd.Series(d).explode()# s 示例:# key1    colA# key1    colD# key2    colB# key3    colC# dtype: objectmask_template = pd.get_dummies(s, dtype=bool).groupby(level=0).max()# mask_template 示例:#        colA   colB   colC   colD# key1   True  False  False   True# key2  False   True  False  False# key3  False  False   True  False

mask_template现在是一个索引为key值，列为目标列的布尔DataFrame，指示了每个key哪些列是有效的。

应用掩码到DataFrame：我们需要将mask_template的布尔值扩展到与原始DataFrame的行数匹配。这可以通过reindex(df[‘key’])实现，然后将其转换为NumPy数组以与目标列进行操作。最后，使用df.mask()方法，其中mask=True的位置会被替换为指定值（’NA’），mask=False的位置则保留原始值。

# 选择需要操作的列，排除'key'列target_cols = df.columns.difference(['key'])# 将mask_template与df['key']对齐，生成最终的行级布尔掩码# .to_numpy() 转换为 NumPy 数组以提高性能，并确保与 df[target_cols] 的形状兼容final_mask = mask_template.reindex(df['key']).to_numpy()# 应用mask，当掩码为False时（即该单元格应该被替换时），将其替换为'NA'# 注意：df.mask(cond, other) 在 cond 为 True 的地方替换为 other# 所以我们需要的是 mask_template 为 True 的地方保留，False 的地方替换。# 而 df.mask 的行为是 True 替换，False 保留。# 因此，我们实际上需要的是 !final_mask 作为 mask 的条件，或者使用 df.where(final_mask, 'NA')# 这里我们使用 df.where，其行为是 True 保留，False 替换。df[target_cols] = df[target_cols].where(final_mask, 'NA')print("n方法一结果:")print(df)

最终输出：

方法一结果:     key     colA     colB     colC     colD0  key1  value1A       NA       NA  value1D1  key2       NA  value2B       NA       NA2  key3       NA       NA  value3C       NA3  key1  value4A       NA       NA  value4D4  key2       NA  value5B       NA       NA

优点：

Stable Diffusion 2.1 Demo

最新体验版 Stable Diffusion 2.1

101 查看详情高度向量化，适用于大型数据集。逻辑清晰，通过布尔掩码直观地控制数据保留与替换。

方法二：数据重塑 (melt, merge, unstack)

这种方法通过将DataFrame重塑为“长格式”，与映射关系进行合并，然后再次重塑回“宽格式”来实现条件映射。这种方法在处理更复杂的数据转换逻辑时也具有很高的灵活性。

定义映射关系：与方法一相同，首先定义key到列的映射字典。

d = {'key1': ['colA', 'colD'],     'key2': ['colB'],     'key3': ['colC']}

重塑DataFrame到长格式 (melt)：将原始DataFrame转换为长格式，其中所有目标列的值都集中在一个value列中，对应的列名在variable列中。我们保留原始索引和key列作为标识符。

df_melted = df.reset_index().melt(id_vars=['index', 'key'])# df_melted 示例（部分）:#    index   key variable    value# 0      0  key1     colA  value1A# 1      1  key2     colA  value2A# 2      2  key3     colA  value3A# ...

准备映射关系为DataFrame：将字典d也转换为长格式DataFrame，以便与df_melted进行合并。

mapping_df = pd.Series(d).explode().rename_axis('key').reset_index(name='variable')# mapping_df 示例:#     key variable# 0  key1     colA# 1  key1     colD# 2  key2     colB# 3  key3     colC

合并并筛选有效数据 (merge)：通过inner merge操作，我们只保留df_melted中那些key和variable组合在mapping_df中存在的行。这意味着只有符合条件的（即应该保留的）数据才会被保留下来。

merged_df = df_melted.merge(mapping_df, on=['key', 'variable'], how='inner')# merged_df 示例（部分）:#    index   key variable    value# 0      0  key1     colA  value1A# 1      3  key1     colA  value4A# 2      0  key1     colD  value1D# ...

重塑回宽格式并填充缺失值 (unstack)：最后，我们将merged_df再次重塑回宽格式。set_index用于设置新的索引，unstack(‘variable’)将variable列的值转换为新的列名。在此过程中，由于merge操作移除了不符合条件的数据，因此在unstack时这些位置将是缺失的，我们可以使用fill_value=’NA’来填充它们。

final_df = (merged_df            .set_index(['index', 'key', 'variable'])['value']            .unstack('variable', fill_value='NA')            .reset_index('key')            .rename_axis(index=None, columns=None))# 重新将'key'列放回原位（如果需要，或者根据实际需求调整列顺序）# 确保原始的非目标列（本例中只有'key'）也在最终结果中# 鉴于我们的目标是替换原始df的列，我们可以直接赋值df_result = df[['key']].copy() # 保留原始key列# 将处理后的结果与原始df的key列合并df_result = df_result.merge(final_df, left_index=True, right_index=True, how='left')# 调整列顺序，确保'key'在最前面df_result = df_result[['key'] + [col for col in final_df.columns if col != 'key']]print("n方法二结果:")print(df_result)

最终输出：

方法二结果:     key     colA     colB     colC     colD0  key1  value1A       NA       NA  value1D1  key2       NA  value2B       NA       NA2  key3       NA       NA  value3C       NA3  key1  value4A       NA       NA  value4D4  key2       NA  value5B       NA       NA

优点：

对于复杂的条件逻辑和数据转换场景，melt/merge/unstack模式非常强大。整个过程都是向量化的，避免了显式循环。易于扩展，例如，如果需要根据多个键列进行映射，此方法也能很好地适应。

总结与注意事项

两种方法都有效地解决了根据“键”列条件性映射多列数据的问题，并且都采用了向量化操作，避免了低效的行级迭代。

pd.get_dummies + df.mask (或 df.where)：

优点： 代码相对简洁，直观地构建布尔掩码，对于纯粹的条件替换场景非常高效。适用场景： 当你只需要根据键列的值来决定哪些单元格保留，哪些单元格替换为固定值时。

melt + merge + unstack：

优点： 灵活性高，不仅可以用于条件替换，还可以用于更复杂的数据聚合、转换和过滤。中间步骤清晰，便于调试。适用场景： 当你需要进行更复杂的数据转换，或者需要将外部映射数据与DataFrame进行灵活组合时。虽然代码行数可能稍多，但其强大的通用性使其成为处理复杂数据转换的有力工具。

在选择方法时，请根据你的具体需求、数据集大小以及个人偏好进行权衡。对于大多数简单的条件映射任务，get_dummies和mask组合通常是更直接和高效的选择。而当涉及到更复杂的数据关系和转换时，melt/merge/unstack模式则提供了更大的灵活性。始终优先考虑使用Pandas和NumPy提供的向量化操作，以确保代码的高性能和可扩展性。

以上就是基于键列高效映射Pandas DataFrame多列数据教程的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/905409.html

a app j o 工具

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

NumPy多维数组乘法深度解析：理解元素级与点积运算

上一篇 2025年11月28日 22:48:06

Django 深度外键访问优化：告别 N+1 查询

下一篇 2025年11月28日 22:48:45

HTML a标签如何让鼠标悬停变色，css控制a标签鼠标悬停样式详解

这篇文章主要的讲述了关于html a标签让鼠标悬停变色，还有关于css控制鼠标悬停的其它样式。里面有着详细的实例教程，可以让大家学的更快，接下来就让我们一起来看这篇文章吧首先我们先来看看html中的a标签鼠标悬停的时候变色：大家应该都知道html中的a标签鼠标悬停的css属性吧，没错，今天我们说…

程序猿
2025年12月24日 • 好文分享
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
好文分享

html5 js怎么加_html5用script标签内嵌或外链引入JS代码【添加】

在HTML5中执行JavaScript需通过script标签：一、内联编写于head或body中；二、外链引入.js文件并建议放body末尾或加defer；三、defer按序执行，async独立执行；四、可动态创建script元素插入执行。如果您希望在HTML5页面中执行JavaScript代码，…

程序猿
2025年12月23日
0000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000
好文分享

html5能否插入带表单的文档_html5表单文档嵌入与数据提交【步骤】

HTML5中无法直接嵌入外部带表单的HTML文档并原生提交；可行方案有四：一、用iframe嵌入，需同源或CORS支持，并用postMessage通信；二、用fetch+DOMParser动态加载表单片段并手动绑定事件；三、在当前页面直接编写表单，最规范且兼容性好；四、用JavaScript+fet…

程序猿
2025年12月23日
0000
好文分享

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
0000
好文分享

360怎么装html5_360浏览器默认支持HTML5无需额外安装设置【说明】

HTML5是网页标准，非独立软件，360浏览器7.0+已原生支持；需确认内核为Blink/Chromium、关闭兼容模式、禁用强制兼容策略、重置Flash插件、清除HTML5本地存储、检查系统Media Foundation组件。如果您在使用360浏览器时发现HTML5网页功能异常（如视频无法播放…

程序猿
2025年12月23日
0000
好文分享

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
2000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000
好文分享

html如何滑动_实现HTML页面或元素滑动效果【效果】

可通过CSS scroll-behavior实现平滑锚点跳转，JavaScript scrollTo精确控制滚动位置，CSS transform模拟高性能滑动动画，或使用Swiper等第三方库实现触摸拖拽、循环播放等高级交互功能。如果您希望在网页中实现页面或特定元素的滑动效果，可以通过CSS和Ja…

程序猿
2025年12月23日
0000
好文分享

html5如何建立站点_HTML5站点建立步骤与网站搭建技巧【指南】

HTML5网站搭建需五步：一、建my-website目录及css/js/images子目录，含index.html；二、写标准HTML5骨架，含DOCTYPE、lang、meta、语义化标签；三、外链CSS与defer/async脚本；四、用http-server启本地服务；五、用email/num…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
2000
好文分享

html5能否让搜索框随滚动固定_html5positionfixed固定布局【攻略】

可使用CSS的position: fixed实现搜索框固定定位，或用position: sticky实现边界感知粘性效果，配合JavaScript动态控制、响应式适配及占位修复，确保滚动时稳定显示。如果您希望在网页滚动过程中让搜索框始终保持在可视区域的固定位置，HTML5 本身不提供直接的布局控制…

程序猿
2025年12月23日
2000
好文分享

html5怎么设置黑体_html5用CSS font-family设黑体或font-weight加粗【设置】

在HTML5中实现黑体及加粗需用CSS的font-family和font-weight：一、font-family按优先级列“SimHei”,“Microsoft YaHei”,“Heiti SC”,sans-serif；二、font-weight用700或bold；三、组合声明并注意继承；四、可用…

程序猿
2025年12月23日
0000
好文分享

html5怎么去除黑点_html5用list-style:none去除ul/ol列表黑点【去除】

可通过 CSS 的 list-style 属性隐藏列表标记：一、list-style: none 最常用；二、list-style-type: none 精准移除符号；三、重置 list-style 全部子属性应对样式干扰；四、display: inline-block 配合 list-style:…

程序猿
2025年12月23日
0000
好文分享

如何操作html_操作HTML元素的常用方法【常用】

必须掌握操作HTML元素的五种核心方法：一、通过ID精准获取并修改单个元素；二、通过类名批量操作多个元素；三、用querySelector系列灵活选择任意CSS匹配元素；四、动态创建并插入新元素；五、安全移除或替换现有元素。如果您需要动态修改网页内容或响应用户交互，则必须掌握操作HTML元素的核心…

程序猿
2025年12月23日
2000
好文分享

html5框架怎么设置_HTML5用iframe或div框架集嵌入子页面设框架【设置】

HTML5中嵌入子页面的现代方案有四种：一、用iframe标签直接嵌入，支持安全与可访问性属性；二、用CSS Grid/Flexbox布局配合JavaScript动态加载HTML片段；三、用Shadow DOM封装自定义元素实现样式脚本隔离；四、用object标签嵌入HTML并提供fallback内…

程序猿
2025年12月23日
2000
好文分享

visual怎么创建html5_VS新建HTML File选HTML5模板快速创建页面【创建】

可在Visual Studio中通过新建文件选HTML5模板、新建ASP.NET Core Web App项目或手动创建.html文件并输入及html:5代码段三种方式快速生成HTML5网页。如果您在 Visual Studio 中需要快速创建一个符合 HTML5 标准的网页文件，则可通过新建项目…

程序猿
2025年12月23日
0000
好文分享

html如何设置新版本_为HTML页面设置版本更新提示【提示】

可通过meta标签检测、Service Worker监听、Last-Modified头比对、manifest.json校验四种方式提示HTML页面新版本更新。如果您希望用户在访问HTML页面时获知存在新版本并提示更新，可以通过客户端缓存控制与版本标识机制触发提示行为。以下是实现该功能的多种方法： …

程序猿
2025年12月23日
0000