Pandas中获取同期季度/年度数据的专业指南

Pandas中获取同期季度/年度数据的专业指南

本文详细介绍了如何在pandas dataframe中高效地计算同期季度(yoq)或同期月份(mom)数据。通过将季度字符串转换为pandas `periodindex`,并巧妙利用其时间偏移特性,结合dataframe的 `merge` 操作,可以精确地将当前季度的数值与前一年同期的数值进行匹配,从而实现复杂的时序数据对比分析。

在进行时序数据分析时,我们经常需要将当前报告期的数值与前一年同期(Year-over-Quarter, YoQ)或前一月同期(Month-over-Month, MoM)的数值进行比较。例如,将2021年第一季度的数据与2020年第一季度的数据进行对比。直接使用 shift() 函数通常只能实现相邻时间段的比较,而无法满足跨年同期的需求。本教程将介绍一种基于Pandas PeriodIndex 和 merge 操作的专业方法来解决这一问题。

数据准备与问题阐述

首先,我们构建一个包含季度数值的示例DataFrame:

import pandas as pddf = pd.DataFrame({'item':['A','A','A','A','A','A','B','B','B','B','B','B','C','C','C','C','C','C'],                  'quarter':['FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2'],                  'value':[100,150,120,135,128,160,230,210,240,220,250,230,125,230,162,111,134,135]})

如果尝试使用 groupby 和 shift 来获取前一年的同期值,会遇到问题。例如,以下代码会获取前一个季度的值,而非前一年的同期季度值:

df['value_prev_incorrect'] = df.sort_values(by=['item','quarter']).groupby(['item'])['value'].shift()print(df)

输出结果如下所示,value_prev_incorrect 列显示的是前一个季度的值,而不是前一年同期的值:

   item  quarter  value  value_prev_incorrect0     A  FY20_Q1    100                   NaN1     A  FY20_Q2    150                 100.02     A  FY20_Q3    120                 150.03     A  FY20_Q4    135                 120.04     A  FY21_Q1    128                 135.05     A  FY21_Q2    160                 128.0...

我们期望的结果是,例如 FY21_Q1 的 value_prev 应该对应 FY20_Q1 的值。

   item  quarter  value  value_prev (期望结果)0     A  FY20_Q1    100                  NaN1     A  FY20_Q2    150                  NaN2     A  FY20_Q3    120                  NaN3     A  FY20_Q4    135                  NaN4     A  FY21_Q1    128                100.05     A  FY21_Q2    160                150.0...

解决方案:使用 PeriodIndex 和合并操作

要实现精确的同期比较,核心思路是:

将表示季度或月份的字符串转换为Pandas PeriodIndex 对象,以便进行标准的时间偏移操作。为每个当前时间点计算出其前一年同期的时间点。通过 merge 操作将原始数据与自身进行合并,利用计算出的时间点进行匹配。

步骤1:标准化季度数据并创建 PeriodIndex

首先,我们需要将 quarter 列的字符串格式(如 FY20_Q1)转换为Pandas能够识别的周期对象。这里我们将其转换为 YYYY-QX 格式,然后创建 PeriodIndex。

# 将 "FYXX_QX" 格式转换为 "20XX-QX"df["current_period"] = df["quarter"].str.replace(r"FY(d+)_Q(d+)", r"201-Q2", regex=True)# 将字符串转换为 PeriodIndex,频率为季度 (Q)df["current_period"] = pd.PeriodIndex(df["current_period"], freq="Q")

现在 df 中新增了一列 current_period,其数据类型为 Period。

百度文心百中 百度文心百中

百度大模型语义搜索体验中心

百度文心百中 22 查看详情 百度文心百中

步骤2:创建前一年同期标识

为了进行合并,我们需要为每个当前季度找到其前一年同期的标识。由于 PeriodIndex 支持时间偏移,我们可以直接利用它。对于季度数据,一年有4个季度,所以前一年同期可以通过减去4个季度来实现。

# 创建一个表示“前一年同期”的PeriodIndex列。# 注意:这里我们创建的是“当前季度 + 4个季度”的标识,# 这样在后续合并时,左侧的“当前季度”就能匹配右侧的“前一年同期”数据。# 具体来说,如果当前行是2021-Q1,那么`next_period`就是2022-Q1。# 在合并时,我们用左侧的`current_period`(例如2021-Q1)去匹配右侧的`next_period`。# 这样,当左侧的`current_period`是2021-Q1时,它会去寻找右侧`next_period`为2021-Q1的行。# 而右侧`next_period`为2021-Q1的行,其`current_period`实际上是2020-Q1。# 从而实现了2021-Q1匹配到2020-Q1的数据。df["next_period"] = df["current_period"] + 4

步骤3:执行合并操作

现在,我们可以将DataFrame与自身进行左连接(left merge)。左侧DataFrame使用 item 和 current_period 作为连接键,右侧DataFrame使用 item 和 next_period 作为连接键。这样,左侧的 current_period (例如 2021-Q1) 就会与右侧的 next_period (例如 2021-Q1) 进行匹配,而右侧 next_period 为 2021-Q1 的行,其 current_period 实际上是 2020-Q1,从而成功获取了前一年同期的数据。

out = df.merge(    df,    how="left",    left_on=["item", "current_period"], # 左侧DataFrame的当前季度    right_on=["item", "next_period"],   # 右侧DataFrame的“前一年同期”季度    suffixes=('_current', '_prev')       # 为区分同名列添加后缀)

步骤4:结果整理与展示

最后,选择并重命名所需的列,以获得清晰的输出结果。

final_df = out[["item", "quarter_current", "value_current", "value_prev"]].rename(    columns={"quarter_current": "quarter", "value_current": "value", "value_prev": "value_prev"})print(final_df)

完整的代码和输出如下:

import pandas as pddf = pd.DataFrame({'item':['A','A','A','A','A','A','B','B','B','B','B','B','C','C','C','C','C','C'],                  'quarter':['FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2'],                  'value':[100,150,120,135,128,160,230,210,240,220,250,230,125,230,162,111,134,135]})# 步骤1:标准化季度数据并创建 PeriodIndexdf["current_period"] = df["quarter"].str.replace(r"FY(d+)_Q(d+)", r"201-Q2", regex=True)df["current_period"] = pd.PeriodIndex(df["current_period"], freq="Q")# 步骤2:创建前一年同期标识# 这里创建的是“当前季度 + 4个季度”的标识,用于后续合并df["next_period"] = df["current_period"] + 4# 步骤3:执行合并操作# 左侧的 current_period (例如 2021-Q1) 会匹配右侧的 next_period (例如 2021-Q1)# 这样右侧的实际 current_period (2020-Q1) 的 value 就会被拉过来out = df.merge(    df,    how="left",    left_on=["item", "current_period"],    right_on=["item", "next_period"],    suffixes=('_current', '_prev'))# 步骤4:结果整理与展示final_df = out[["item", "quarter_current", "value_current", "value_prev"]].rename(    columns={"quarter_current": "quarter", "value_current": "value", "value_prev": "value_prev"})print(final_df)

输出结果:

   item  quarter  value  value_prev0     A  FY20_Q1    100         NaN1     A  FY20_Q2    150         NaN2     A  FY20_Q3    120         NaN3     A  FY20_Q4    135         NaN4     A  FY21_Q1    128       100.05     A  FY21_Q2    160       150.06     B  FY20_Q1    230         NaN7     B  FY20_Q2    210         NaN8     B  FY20_Q3    240         NaN9     B  FY20_Q4    220         NaN10    B  FY21_Q1    250       230.011    B  FY21_Q2    230       210.012    C  FY20_Q1    125         NaN13    C  FY20_Q2    230         NaN14    C  FY20_Q3    162         NaN15    C  FY20_Q4    111         NaN16    C  FY21_Q1    134       125.017    C  FY21_Q2    135       230.0

可以看到,value_prev 列现在包含了前一年同期的数据,例如 FY21_Q1 的 value_prev 是 100.0,对应 FY20_Q1 的值。

注意事项与最佳实践

数据类型转换的重要性: 将季度/月份字符串转换为 PeriodIndex 是此方法的关键。PeriodIndex 提供了强大的时间偏移功能,使得计算前一年同期变得简单而准确。freq 参数的设定: 在创建 PeriodIndex 时,务必根据数据的实际频率(如 Q 代表季度,M 代表月份)设置 freq 参数。这将直接影响时间偏移的准确性。合并键的选取: 除了时间周期外,通常还需要一个业务维度(如 item)作为合并键,以确保不同业务实体之间的数据不会混淆。处理缺失值: 对于数据集中最早的年份,其同期数据将不存在,因此 value_prev 列会显示 NaN。这是预期行为,表示没有可供比较的前一年同期数据。灵活性: 这种方法不仅适用于季度数据,也适用于月份数据(只需将 freq=”Q” 改为 freq=”M”,并将偏移量 +4 改为 +12)。性能考量: 对于非常大的数据集,merge 操作通常是高效的。但在极端情况下,如果内存成为瓶颈,可能需要考虑其他优化策略,例如先设置 PeriodIndex 为DataFrame索引,然后使用 reindex 或自定义函数。

总结

通过将原始的季度或月份字符串数据转换为 PeriodIndex,并结合Pandas强大的 merge 操作,我们可以精确且高效地获取前一年同期的数据。这种方法避免了 shift() 函数在跨年同期比较时的局限性,为时序数据分析提供了坚实的基础。掌握这一技巧,将使您在处理复杂的时序比较任务时更加得心应手。

以上就是Pandas中获取同期季度/年度数据的专业指南的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/584833.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月10日 12:43:17
下一篇 2025年11月10日 12:44:12

相关推荐

发表回复

登录后才能评论
关注微信