基于连续周期状态列生成Flag的Pandas高效方法

程序猿 • 2025年12月14日 08:36:52 • 用户投稿 • 阅读 0

本文旨在提供一种高效的 Pandas 方法，用于根据连续 12 个周期内的状态列生成 Flag。通过使用 groupby.rolling 函数，避免了低效的循环，显著提升了处理大数据集的性能。文章提供了两种实现方案，分别考虑了未来周期和过去周期的状态，并附带详细代码示例和解释。

在数据分析中，经常需要根据时间序列数据生成一些标志（Flag），例如，判断某个事件在未来或过去一段时间内是否发生。如果数据集较大，传统的循环方法效率较低。本文将介绍如何利用 Pandas 的 groupby.rolling 函数，高效地根据连续周期内的状态列生成 Flag，并提供两种不同的实现方案。

方法一：考虑未来周期的状态

此方法检查每个周期后连续 12 个月内的状态，如果其中任何一个状态为 1，则将该周期的 Flag 设置为 1。

import pandas as pd# 示例数据data = {'ID': ['A'] * 13,        'Period': ['2020-10-28', '2020-11-28', '2020-12-28', '2021-01-28', '2021-02-28', '2021-03-28',                   '2021-04-28', '2021-05-28', '2021-06-28', '2021-07-28', '2021-08-28', '2021-09-28',                   '2021-10-28'],        'status': [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]}df = pd.DataFrame(data)df['Flag'] = (df      .assign(Period=pd.to_datetime(df['Period']).dt.to_period('M'))      [::-1]      .groupby('ID').rolling(12, on='Period', min_periods=1)      ['status'].max()[::-1].to_numpy())print(df)

代码解释：

df.assign(Period=pd.to_datetime(df[‘Period’]).dt.to_period(‘M’)): 将 ‘Period’ 列转换为 Pandas Period 类型，方便进行时间窗口的滚动计算。[::-1]: 反转 DataFrame，因为 rolling 函数默认从前往后滚动。groupby(‘ID’).rolling(12, on=’Period’, min_periods=1): 按 ‘ID’ 分组，然后使用 rolling 函数创建一个窗口大小为 12 个月的时间窗口。 min_periods=1 表示即使窗口内的周期数小于 12，也进行计算。[‘status’].max(): 计算每个窗口内 ‘status’ 列的最大值。[::-1].to_numpy(): 再次反转结果，使其与原始 DataFrame 的顺序一致，并将结果转换为 NumPy 数组。df[‘Flag’] = …: 将计算得到的 Flag 值赋给 DataFrame 的 ‘Flag’ 列。

输出结果：

   ID      Period  status  Flag0   A  2020-10-28       0   1.01   A  2020-11-28       0   1.02   A  2020-12-28       0   1.03   A  2021-01-28       0   1.04   A  2021-02-28       0   1.05   A  2021-03-28       0   1.06   A  2021-04-28       0   1.07   A  2021-05-28       0   1.08   A  2021-06-28       1   1.09   A  2021-07-28       0   0.010  A  2021-08-28       0   0.011  A  2021-09-28       0   0.012  A  2021-10-28       0   0.0

方法二：仅考虑过去周期的状态

此方法仅考虑每个周期前连续 12 个月内的状态，如果其中任何一个状态为 1，则将该周期的 Flag 设置为 1。

import pandas as pd# 示例数据data = {'ID': ['A'] * 13,        'Period': ['2020-10-28', '2020-11-28', '2020-12-28', '2021-01-28', '2021-02-28', '2021-03-28',                   '2021-04-28', '2021-05-28', '2021-06-28', '2021-07-28', '2021-08-28', '2021-09-28',                   '2021-10-28'],        'status': [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]}df = pd.DataFrame(data)df['Flag'] = (df      .assign(Period=pd.to_datetime(df['Period']).dt.to_period('M'))      .set_index('Period')      [::-1]      .groupby('ID')['status']      .transform(lambda g: g.rolling(12, min_periods=1)                            .max().shift(fill_value=0)                 )      .to_numpy()[::-1])print(df)

代码解释：

df.assign(Period=pd.to_datetime(df[‘Period’]).dt.to_period(‘M’)): 将 ‘Period’ 列转换为 Pandas Period 类型，方便进行时间窗口的滚动计算。.set_index(‘Period’): 将’Period’列设置为索引[::-1]: 反转 DataFrame，因为 rolling 函数默认从前往后滚动。groupby(‘ID’)[‘status’].transform(lambda g: g.rolling(12, min_periods=1).max().shift(fill_value=0)): 按 ‘ID’ 分组，然后使用 transform 函数对每个分组应用滚动计算。rolling(12, min_periods=1).max() 计算每个窗口内 ‘status’ 列的最大值，shift(fill_value=0) 将结果向下移动一位，并将第一个值填充为 0，以实现只考虑过去周期的状态。.to_numpy()[::-1]: 将结果转换为 NumPy 数组，并再次反转，使其与原始 DataFrame 的顺序一致。df[‘Flag’] = …: 将计算得到的 Flag 值赋给 DataFrame 的 ‘Flag’ 列。

输出结果：

   ID      Period  status  Flag0   A  2020-10-28       0   1.01   A  2020-11-28       0   1.02   A  2020-12-28       0   1.03   A  2021-01-28       0   1.04   A  2021-02-28       0   1.05   A  2021-03-28       0   1.06   A  2021-04-28       0   1.07   A  2021-05-28       0   1.08   A  2021-06-28       1   0.09   A  2021-07-28       0   0.010  A  2021-08-28       0   0.011  A  2021-09-28       0   0.012  A  2021-10-28       0   0.0

注意事项和总结

数据类型转换： 确保 ‘Period’ 列的数据类型正确，需要将其转换为 Pandas Period 或 Datetime 类型，以便进行时间窗口的滚动计算。排序： 在进行滚动计算之前，需要对数据进行排序，确保数据按照时间顺序排列。性能： groupby.rolling 函数比循环方法效率更高，尤其是在处理大数据集时。灵活性： 可以根据实际需求调整窗口大小和计算方式，例如，可以使用 min()、mean() 等函数计算窗口内的最小值、平均值等。min_periods参数： 该参数控制了窗口内最少需要多少个非空值才能进行计算。根据实际情况设置，避免出现不必要的错误。

通过本文的介绍，您可以使用 Pandas 的 groupby.rolling 函数，高效地根据连续周期内的状态列生成 Flag，从而提升数据分析的效率。根据您的需求选择合适的方案，并注意数据类型转换、排序和性能优化。

以上就是基于连续周期状态列生成Flag的Pandas高效方法的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1368236.html

排列

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

在 Pandas DataFrame 中按 Market 分组并插入空行

上一篇 2025年12月14日 08:36:50

使用 Selenium 获取 Twitter 视频 URL

下一篇 2025年12月14日 08:36:58

虫虫漫画直接进入官网入口_虫虫漫画网页版清爽版

虫虫漫画官网入口为www.ccmh.com，用户可直接通过浏览器访问，支持多端适配与账号同步功能，界面简洁无广告，提供海量国漫、日漫、韩漫资源，涵盖恋爱、玄幻等热门题材，更新及时，支持多种阅读模式及离线缓存，阅读体验流畅。虫虫漫画直接进入官网入口在哪里？这是不少网友都关注的，接下来由PHP小编为大…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

HTML/CSS中链接与按钮的正确嵌套：避免文本超链接化与结构优化指南

本教程旨在解决HTML中链接()与按钮(button)或类按钮元素嵌套不当导致非预期文本超链接化的问题。我们将通过修正标签的错误闭合，并推荐使用等语义化元素作为链接内容并应用按钮样式，来创建功能正确、结构清晰且包含文本或图像的交互式按钮，从而提升页面的可维护性和用户体验。在网页开发中，我们经常需…

程序猿
2026年5月10日
0000
用户投稿

如何根据当前月份动态排序 1-12 月？

根据当前月份动态排序 1-12 月想要实现根据当前月份动态排序 1-12 月，可以通过参考以下方法：创建月份数组：首先，创建一个包含 1-12 月信息（如名称和值）的月份数组。获取当前月份：获取 javascript 中表示当前月份的数值（从 0 到 11）。重新排序月份数组：使用 javasc…

程序猿
2026年5月10日
0000
用户投稿

Angular mat-tab 高度自适应与布局优化指南

本教程旨在解决Angular Material mat-tab组件在Flexbox布局中无法自动填充父容器高度的问题。文章将深入分析问题根源，并提供使用CSS深度选择器（::ng-deep）精确控制mat-tab-body-wrapper和mat-tab-body高度的解决方案，确保组件在指定布局下…

程序猿
2026年5月10日
0000
用户投稿

html如何制作水印_HTML水印（文字/图片）添加与设置方法

使用CSS和HTML可实现网页水印，方法包括：一、通过background-image与data URI嵌入斜向文字水印；二、利用伪元素结合transform旋转生成叠加文字层；三、插入img标签或背景图设置固定位置图片水印；四、用Canvas绘制多行斜纹并转Base64作背景；五、通过禁用右键、屏…

程序猿
2026年5月10日
1000
用户投稿

使用CSS Grid实现不规则列布局：告别传统表格的限制

本教程详细阐述如何利用css grid实现复杂的、不规则的列布局，尤其适用于那些传统html表格难以实现的块状结构。文章将通过具体的css属性和html结构示例，指导读者如何定义网格、控制子项的跨度与位置，以及优化自动布局流程，从而高效构建灵活且响应式的页面布局。 1. 传统表格的局限与CSS Gr…

程序猿
2026年5月10日
0000
用户投稿

WordPress自定义主题中根据文章数量动态显示/隐藏“查看更多”按钮的教程

本教程旨在指导开发者如何在wordpress自定义主题中，根据特定文章类型和分类的实际数量，动态控制“查看更多”按钮的显示与隐藏。我们将利用 wp_query 及其 found_posts 属性，精确判断符合条件的文章总数，从而在有更多文章时显示按钮，在无文章时显示提示信息，优化用户体验。引言在…

程序猿
2026年5月10日
0000
用户投稿

CSS Flexbox：在居中对齐时优雅地控制元素间距

本文深入探讨了在css flexbox布局中，当容器使用`display: flex`和`justify-content: center`进行居中对齐时，如何有效地在子元素之间添加间距。我们将分析传统方法（如子元素的`margin`和容器的`padding`）的局限性，并重点介绍现代且推荐的`gap…

程序猿
2026年5月10日
0000
用户投稿

C#如何处理异常？C# try-catch-finally最佳实践与常见错误规避

正确使用 try-catch-finally 应捕获具体异常、用 finally 或 using 释放资源、避免空 catch 和裸抛异常，确保异常日志记录并保留堆栈跟踪，提升代码健壮性与可维护性。在C#中，异常处理是保障程序稳定运行的重要机制。正确使用 try-catch-finally 结构不…

程序猿
2026年5月10日
0000
CSS的display属性有哪些值？inline和block有什么区别？

css的display属性通过定义元素的显示方式来控制网页布局。1.block元素独占一行，可设置宽高，默认如div、p等；2.inline元素不独占行，宽高由内容决定，如span、a；3.inline-block兼具block和inline特性，可并排显示且能设尺寸；4.none隐藏元素且不占空间…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

优化 Laravel Eloquent 查询：高效构建用户排行榜数据

本教程详细讲解如何优化 Laravel Eloquent 查询以高效生成基于关联记录计数的排行榜。通过识别并消除冗余的 whereHas 子句，并巧妙利用 withCount 的条件闭包，我们能显著提升查询性能，大幅缩短数据获取时间，从而改善用户体验并降低数据库负载。在 laravel 应用开发中…

程序猿
2026年5月10日
0000
用户投稿

CSS多级下拉菜单布局优化：解决li元素高度自适应与多列排版问题

本文深入探讨了css多级下拉菜单中li元素高度自适应与多列排版布局的优化策略。针对传统flex布局可能遇到的高度填充问题，文章介绍了如何利用column-count属性在父容器中创建多列布局，并结合float: left使子li元素在列中自然排列，实现动态高度适应，从而构建出结构清晰、内容丰富的响应…

程序猿
2026年5月10日
0000
用户投稿

HTML代码怎么实现响应式布局_HTML代码响应式布局原理与媒体查询应用

响应式布局的核心原理是“一次开发，多端适应”，其本质在于通过弹性网格、流式图片和CSS媒体查询等技术，使网页能根据设备屏幕尺寸、分辨率等特性动态调整布局与内容呈现。与传统固定宽度布局不同，响应式设计采用相对单位（如%、rem、vw）、灵活的图片处理及媒体查询，实现移动端优先、自适应多设备的连续体验。…

程序猿
2026年5月10日
0000
HTML如何制作网格布局？grid和flexbox的区别？

要制作真正的网格布局应首选css grid，因为它是专为二维布局设计的工具，能同时控制行和列；而flexbox适用于一维线性布局，适合沿单一轴线排列内容。1. 使用css grid时，先设置容器的display: grid，再通过grid-template-columns和grid-template…

程序猿
用户投稿 2026年5月10日
0000
用户投稿

HTML如何实现生日倒计时？剩余天数怎么计算？

是的，通过动态调整目标生日年份可确保跨年倒计时准确，1.首先获取当前年份的生日日期，2.若该日期已过，则将目标设为下一年生日，3.通过时间戳差值计算剩余天、小时、分钟、秒，4.每秒更新显示并补零格式化，5.归零时显示“生日快乐”动画提示，从而实现全年准确的倒计时效果。 HTML实现生日倒计时，主要是…

程序猿
2026年5月10日
0000
用户投稿

在 Ionic 中实现聊天式输入框：多图标定位与布局优化

本文旨在解决 Ionic 应用中聊天式输入框的布局难题，特别是如何在 ion-footer 内的 ion-input 组件中，正确地定位多个右侧图标按钮，同时避免图标重叠和文本流异常。通过采用 ion-toolbar 和 slot=”end” 等 Ionic 提供的布局机制，…

程序猿
2026年5月10日
2000
用户投稿

Nunjucks循环控制：限制迭代次数与条件渲染技巧

本文将详细介绍如何在Nunjucks模板中有效控制for循环的迭代次数，以实现只渲染指定数量的项目。我们将探讨两种主要方法：利用slice过滤器对集合进行预处理，以及通过loop.index进行条件渲染。此外，文章还将讨论相关注意事项和最佳实践，帮助开发者编写更高效、更灵活的Nunjucks模板代码…

程序猿
2026年5月10日
0000
用户投稿

c语言如何生成html_用C语言程序输出HTML格式文件【文件】

C语言动态生成HTML文件有五种方法：一、用fprintf逐行写入；二、构建缓冲区后fwrite一次性写入；三、用宏简化标签输出；四、从模板文件加载并替换变量；五、用结构体组织元素并序列化。如果您希望使用C语言程序动态生成HTML格式的文件，则需要通过标准文件I/O操作将符合HTML语法的文本内容…

程序猿
2026年5月10日
0000
用户投稿

HTML三栏布局怎么语义化_HTML三栏布局的语义化标签使用技巧

答案：实现三栏布局应遵循“内容决定标签”原则，使用header、nav、main、aside、section、article和footer等HTML5语义标签准确表达结构，避免全用div；以main为核心内容区，左右侧栏用aside区分辅助信息，结合Flexbox或Grid通过CSS实现视觉布局，并…

程序猿
2026年5月10日
0000
用户投稿

JavaScript中基于data-price属性的正确数值排序指南

当尝试根据html元素的`data-price`属性（存储为字符串）进行价格排序时，javascript的默认比较操作会按字典顺序处理，导致“20”被错误地排在“5”之前。本教程将详细解释此原因，并提供将字符串属性转换为数字进行精确排序的解决方案，确保商品列表按预期升序或降序排列。在开发Web应用…

程序猿
2026年5月10日
0000