基于分组和条件添加新列的 Pandas 教程

程序猿 • 2025年12月14日 06:46:59 • 用户投稿 • 阅读 0

本文介绍了如何使用 Pandas 在 DataFrame 中基于分组和条件计算并添加新列。我们将通过一个实际案例，演示如何根据 ‘text’ 列进行分组，并根据 ‘number’ 列的值动态计算 ‘test’ 列的值，其中’number’列的值会影响计算的步长。

问题描述

假设我们有一个 DataFrame，包含 ‘id’, ‘date’, ‘date_difference’, ‘number’ 和 ‘text’ 等列。我们的目标是创建一个名为 ‘test’ 的新列，其值取决于 ‘text’ 列的分组以及 ‘number’ 列的值。具体规则如下：

根据 ‘text’ 列进行分组。在每个分组内，’date’ 列按降序排列。当 ‘number’ 列的值为 0 时，步长从 1 开始。如果在分组内找到 ‘number’ 列的值为 1，则步长增加 1。如果分组内没有 ‘number’ 列的值为 1，则整个分组的步长保持为 1。

解决方案

我们可以使用 Pandas 的 groupby()、apply()、sort_values()、shift() 和 cumsum() 等方法来实现这个目标。

代码示例

import pandas as pdimport numpy as npdata = {    'id': [1, 2, 3, 4, 5, 6, 7],    'date': ['2019-02-01', '2019-02-10', '2019-02-25', '2019-03-05', '2019-03-16', '2019-04-05', '2019-05-15'],    'date_difference': [None, 9, 15, 11, 10, 19, 40],    'number': [1, 0, 1, 0, 0, 0, 0],    'text': ['A', 'A', 'A', 'A', 'A', 'B', 'B']}df = pd.DataFrame(data)out = df.assign(    test=df    .groupby("text")    .apply(        lambda g: (            g.sort_values(by="date", ascending=False)            .number.shift(periods=1, fill_value=1)            .cumsum()        )    )    .droplevel("text"))print(out)

代码解释

df.assign(test=…): assign 方法用于创建一个新的列 ‘test’，并将计算结果赋值给它。df.groupby(“text”): 这会将 DataFrame 按照 ‘text’ 列的值进行分组。.apply(lambda g: …): apply 方法将一个函数应用到每个分组（这里用 g 表示每个分组后的 DataFrame）。g.sort_values(by=”date”, ascending=False): 在每个分组内，按照 ‘date’ 列降序排序。.number.shift(periods=1, fill_value=1): 将 ‘number’ 列的值向上移动一位（即向前 shift），并将第一个缺失值（由于 shift 造成的）填充为 1。 shift 操作的目的是将当前行的 number 值与上一行的 number 值关联起来，从而确定步长。fill_value=1 确保了第一个值的步长至少为 1。.cumsum(): 计算移动后的 ‘number’ 列的累积和。这个累积和就是我们想要的 ‘test’ 列的值。.droplevel(“text”): 移除由 groupby 引入的索引层级 “text”，使结果与原始 DataFrame 的索引对齐。

输出结果

运行上述代码，将得到以下 DataFrame：

   id        date  date_difference  number text  test0   1  2019-02-01              NaN       1    A     21   2  2019-02-10              9.0       0    A     22   3  2019-02-25             15.0       1    A     13   4  2019-03-05             11.0       0    A     14   5  2019-03-16             10.0       0    A     15   6  2019-04-05             19.0       0    B     16   7  2019-05-15             40.0       0    B     1

可以看到，’test’ 列已经按照我们的规则正确计算出来了。

注意事项

确保 ‘date’ 列的数据类型是 datetime 类型。如果不是，可以使用 pd.to_datetime() 函数进行转换。fill_value 的值需要根据实际情况进行调整。在本例中，我们将其设置为 1，以确保步长至少为 1。理解 shift 函数的作用至关重要。它将当前行的 ‘number’ 值与上一行的 ‘number’ 值关联起来，从而实现了动态步长的计算。

总结

本文演示了如何使用 Pandas 在 DataFrame 中基于分组和条件计算并添加新列。通过 groupby()、apply()、sort_values()、shift() 和 cumsum() 等方法的组合，我们可以灵活地处理各种复杂的数据计算任务。掌握这些技巧可以帮助你更高效地进行数据分析和处理。

以上就是基于分组和条件添加新列的 Pandas 教程的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1366677.html

排列

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

基于Pandas的Groupby操作添加条件列的教程

上一篇 2025年12月14日 06:46:56

如何使用 try/except 处理图像损坏问题

下一篇 2025年12月14日 06:47:06

虫虫漫画直接进入官网入口_虫虫漫画网页版清爽版

虫虫漫画官网入口为www.ccmh.com，用户可直接通过浏览器访问，支持多端适配与账号同步功能，界面简洁无广告，提供海量国漫、日漫、韩漫资源，涵盖恋爱、玄幻等热门题材，更新及时，支持多种阅读模式及离线缓存，阅读体验流畅。虫虫漫画直接进入官网入口在哪里？这是不少网友都关注的，接下来由PHP小编为大…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

HTML/CSS中链接与按钮的正确嵌套：避免文本超链接化与结构优化指南

本教程旨在解决HTML中链接()与按钮(button)或类按钮元素嵌套不当导致非预期文本超链接化的问题。我们将通过修正标签的错误闭合，并推荐使用等语义化元素作为链接内容并应用按钮样式，来创建功能正确、结构清晰且包含文本或图像的交互式按钮，从而提升页面的可维护性和用户体验。在网页开发中，我们经常需…

程序猿
2026年5月10日
0000
用户投稿

如何根据当前月份动态排序 1-12 月？

根据当前月份动态排序 1-12 月想要实现根据当前月份动态排序 1-12 月，可以通过参考以下方法：创建月份数组：首先，创建一个包含 1-12 月信息（如名称和值）的月份数组。获取当前月份：获取 javascript 中表示当前月份的数值（从 0 到 11）。重新排序月份数组：使用 javasc…

程序猿
2026年5月10日
0000
用户投稿

Angular mat-tab 高度自适应与布局优化指南

本教程旨在解决Angular Material mat-tab组件在Flexbox布局中无法自动填充父容器高度的问题。文章将深入分析问题根源，并提供使用CSS深度选择器（::ng-deep）精确控制mat-tab-body-wrapper和mat-tab-body高度的解决方案，确保组件在指定布局下…

程序猿
2026年5月10日
0000
用户投稿

html如何制作水印_HTML水印（文字/图片）添加与设置方法

使用CSS和HTML可实现网页水印，方法包括：一、通过background-image与data URI嵌入斜向文字水印；二、利用伪元素结合transform旋转生成叠加文字层；三、插入img标签或背景图设置固定位置图片水印；四、用Canvas绘制多行斜纹并转Base64作背景；五、通过禁用右键、屏…

程序猿
2026年5月10日
1000
用户投稿

使用CSS Grid实现不规则列布局：告别传统表格的限制

本教程详细阐述如何利用css grid实现复杂的、不规则的列布局，尤其适用于那些传统html表格难以实现的块状结构。文章将通过具体的css属性和html结构示例，指导读者如何定义网格、控制子项的跨度与位置，以及优化自动布局流程，从而高效构建灵活且响应式的页面布局。 1. 传统表格的局限与CSS Gr…

程序猿
2026年5月10日
0000
用户投稿

WordPress自定义主题中根据文章数量动态显示/隐藏“查看更多”按钮的教程

本教程旨在指导开发者如何在wordpress自定义主题中，根据特定文章类型和分类的实际数量，动态控制“查看更多”按钮的显示与隐藏。我们将利用 wp_query 及其 found_posts 属性，精确判断符合条件的文章总数，从而在有更多文章时显示按钮，在无文章时显示提示信息，优化用户体验。引言在…

程序猿
2026年5月10日
0000
用户投稿

CSS Flexbox：在居中对齐时优雅地控制元素间距

本文深入探讨了在css flexbox布局中，当容器使用`display: flex`和`justify-content: center`进行居中对齐时，如何有效地在子元素之间添加间距。我们将分析传统方法（如子元素的`margin`和容器的`padding`）的局限性，并重点介绍现代且推荐的`gap…

程序猿
2026年5月10日
0000
用户投稿

C#如何处理异常？C# try-catch-finally最佳实践与常见错误规避

正确使用 try-catch-finally 应捕获具体异常、用 finally 或 using 释放资源、避免空 catch 和裸抛异常，确保异常日志记录并保留堆栈跟踪，提升代码健壮性与可维护性。在C#中，异常处理是保障程序稳定运行的重要机制。正确使用 try-catch-finally 结构不…

程序猿
2026年5月10日
0000
CSS的display属性有哪些值？inline和block有什么区别？

css的display属性通过定义元素的显示方式来控制网页布局。1.block元素独占一行，可设置宽高，默认如div、p等；2.inline元素不独占行，宽高由内容决定，如span、a；3.inline-block兼具block和inline特性，可并排显示且能设尺寸；4.none隐藏元素且不占空间…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

优化 Laravel Eloquent 查询：高效构建用户排行榜数据

本教程详细讲解如何优化 Laravel Eloquent 查询以高效生成基于关联记录计数的排行榜。通过识别并消除冗余的 whereHas 子句，并巧妙利用 withCount 的条件闭包，我们能显著提升查询性能，大幅缩短数据获取时间，从而改善用户体验并降低数据库负载。在 laravel 应用开发中…

程序猿
2026年5月10日
0000
用户投稿

CSS多级下拉菜单布局优化：解决li元素高度自适应与多列排版问题

本文深入探讨了css多级下拉菜单中li元素高度自适应与多列排版布局的优化策略。针对传统flex布局可能遇到的高度填充问题，文章介绍了如何利用column-count属性在父容器中创建多列布局，并结合float: left使子li元素在列中自然排列，实现动态高度适应，从而构建出结构清晰、内容丰富的响应…

程序猿
2026年5月10日
0000
用户投稿

HTML代码怎么实现响应式布局_HTML代码响应式布局原理与媒体查询应用

响应式布局的核心原理是“一次开发，多端适应”，其本质在于通过弹性网格、流式图片和CSS媒体查询等技术，使网页能根据设备屏幕尺寸、分辨率等特性动态调整布局与内容呈现。与传统固定宽度布局不同，响应式设计采用相对单位（如%、rem、vw）、灵活的图片处理及媒体查询，实现移动端优先、自适应多设备的连续体验。…

程序猿
2026年5月10日
0000
HTML如何制作网格布局？grid和flexbox的区别？

要制作真正的网格布局应首选css grid，因为它是专为二维布局设计的工具，能同时控制行和列；而flexbox适用于一维线性布局，适合沿单一轴线排列内容。1. 使用css grid时，先设置容器的display: grid，再通过grid-template-columns和grid-template…

程序猿
用户投稿 2026年5月10日
0000
用户投稿

HTML如何实现生日倒计时？剩余天数怎么计算？

是的，通过动态调整目标生日年份可确保跨年倒计时准确，1.首先获取当前年份的生日日期，2.若该日期已过，则将目标设为下一年生日，3.通过时间戳差值计算剩余天、小时、分钟、秒，4.每秒更新显示并补零格式化，5.归零时显示“生日快乐”动画提示，从而实现全年准确的倒计时效果。 HTML实现生日倒计时，主要是…

程序猿
2026年5月10日
0000
用户投稿

在 Ionic 中实现聊天式输入框：多图标定位与布局优化

本文旨在解决 Ionic 应用中聊天式输入框的布局难题，特别是如何在 ion-footer 内的 ion-input 组件中，正确地定位多个右侧图标按钮，同时避免图标重叠和文本流异常。通过采用 ion-toolbar 和 slot=”end” 等 Ionic 提供的布局机制，…

程序猿
2026年5月10日
2000
用户投稿

Nunjucks循环控制：限制迭代次数与条件渲染技巧

本文将详细介绍如何在Nunjucks模板中有效控制for循环的迭代次数，以实现只渲染指定数量的项目。我们将探讨两种主要方法：利用slice过滤器对集合进行预处理，以及通过loop.index进行条件渲染。此外，文章还将讨论相关注意事项和最佳实践，帮助开发者编写更高效、更灵活的Nunjucks模板代码…

程序猿
2026年5月10日
0000
用户投稿

c语言如何生成html_用C语言程序输出HTML格式文件【文件】

C语言动态生成HTML文件有五种方法：一、用fprintf逐行写入；二、构建缓冲区后fwrite一次性写入；三、用宏简化标签输出；四、从模板文件加载并替换变量；五、用结构体组织元素并序列化。如果您希望使用C语言程序动态生成HTML格式的文件，则需要通过标准文件I/O操作将符合HTML语法的文本内容…

程序猿
2026年5月10日
3000
用户投稿

HTML三栏布局怎么语义化_HTML三栏布局的语义化标签使用技巧

答案：实现三栏布局应遵循“内容决定标签”原则，使用header、nav、main、aside、section、article和footer等HTML5语义标签准确表达结构，避免全用div；以main为核心内容区，左右侧栏用aside区分辅助信息，结合Flexbox或Grid通过CSS实现视觉布局，并…

程序猿
2026年5月10日
0000
用户投稿

JavaScript中基于data-price属性的正确数值排序指南

当尝试根据html元素的`data-price`属性（存储为字符串）进行价格排序时，javascript的默认比较操作会按字典顺序处理，导致“20”被错误地排在“5”之前。本教程将详细解释此原因，并提供将字符串属性转换为数字进行精确排序的解决方案，确保商品列表按预期升序或降序排列。在开发Web应用…

程序猿
2026年5月10日
0000

发表回复

登录后才能评论

基于分组和条件添加新列的 Pandas 教程

关于作者

相关推荐

发表回复