
本文详细介绍了如何在pandas dataframe中高效地计算同期季度(yoq)或同期月份(mom)数据。通过将季度字符串转换为pandas `periodindex`,并巧妙利用其时间偏移特性,结合dataframe的 `merge` 操作,可以精确地将当前季度的数值与前一年同期的数值进行匹配,从而实现复杂的时序数据对比分析。
在进行时序数据分析时,我们经常需要将当前报告期的数值与前一年同期(Year-over-Quarter, YoQ)或前一月同期(Month-over-Month, MoM)的数值进行比较。例如,将2021年第一季度的数据与2020年第一季度的数据进行对比。直接使用 shift() 函数通常只能实现相邻时间段的比较,而无法满足跨年同期的需求。本教程将介绍一种基于Pandas PeriodIndex 和 merge 操作的专业方法来解决这一问题。
数据准备与问题阐述
首先,我们构建一个包含季度数值的示例DataFrame:
import pandas as pddf = pd.DataFrame({'item':['A','A','A','A','A','A','B','B','B','B','B','B','C','C','C','C','C','C'], 'quarter':['FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2', 'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2', 'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2'], 'value':[100,150,120,135,128,160,230,210,240,220,250,230,125,230,162,111,134,135]})
如果尝试使用 groupby 和 shift 来获取前一年的同期值,会遇到问题。例如,以下代码会获取前一个季度的值,而非前一年的同期季度值:
df['value_prev_incorrect'] = df.sort_values(by=['item','quarter']).groupby(['item'])['value'].shift()print(df)
输出结果如下所示,value_prev_incorrect 列显示的是前一个季度的值,而不是前一年同期的值:
item quarter value value_prev_incorrect0 A FY20_Q1 100 NaN1 A FY20_Q2 150 100.02 A FY20_Q3 120 150.03 A FY20_Q4 135 120.04 A FY21_Q1 128 135.05 A FY21_Q2 160 128.0...
我们期望的结果是,例如 FY21_Q1 的 value_prev 应该对应 FY20_Q1 的值。
item quarter value value_prev (期望结果)0 A FY20_Q1 100 NaN1 A FY20_Q2 150 NaN2 A FY20_Q3 120 NaN3 A FY20_Q4 135 NaN4 A FY21_Q1 128 100.05 A FY21_Q2 160 150.0...
解决方案:使用 PeriodIndex 和合并操作
要实现精确的同期比较,核心思路是:
将表示季度或月份的字符串转换为Pandas PeriodIndex 对象,以便进行标准的时间偏移操作。为每个当前时间点计算出其前一年同期的时间点。通过 merge 操作将原始数据与自身进行合并,利用计算出的时间点进行匹配。
步骤1:标准化季度数据并创建 PeriodIndex
首先,我们需要将 quarter 列的字符串格式(如 FY20_Q1)转换为Pandas能够识别的周期对象。这里我们将其转换为 YYYY-QX 格式,然后创建 PeriodIndex。
# 将 "FYXX_QX" 格式转换为 "20XX-QX"df["current_period"] = df["quarter"].str.replace(r"FY(d+)_Q(d+)", r"201-Q2", regex=True)# 将字符串转换为 PeriodIndex,频率为季度 (Q)df["current_period"] = pd.PeriodIndex(df["current_period"], freq="Q")
现在 df 中新增了一列 current_period,其数据类型为 Period。
百度文心百中
百度大模型语义搜索体验中心
22 查看详情
步骤2:创建前一年同期标识
为了进行合并,我们需要为每个当前季度找到其前一年同期的标识。由于 PeriodIndex 支持时间偏移,我们可以直接利用它。对于季度数据,一年有4个季度,所以前一年同期可以通过减去4个季度来实现。
# 创建一个表示“前一年同期”的PeriodIndex列。# 注意:这里我们创建的是“当前季度 + 4个季度”的标识,# 这样在后续合并时,左侧的“当前季度”就能匹配右侧的“前一年同期”数据。# 具体来说,如果当前行是2021-Q1,那么`next_period`就是2022-Q1。# 在合并时,我们用左侧的`current_period`(例如2021-Q1)去匹配右侧的`next_period`。# 这样,当左侧的`current_period`是2021-Q1时,它会去寻找右侧`next_period`为2021-Q1的行。# 而右侧`next_period`为2021-Q1的行,其`current_period`实际上是2020-Q1。# 从而实现了2021-Q1匹配到2020-Q1的数据。df["next_period"] = df["current_period"] + 4
步骤3:执行合并操作
现在,我们可以将DataFrame与自身进行左连接(left merge)。左侧DataFrame使用 item 和 current_period 作为连接键,右侧DataFrame使用 item 和 next_period 作为连接键。这样,左侧的 current_period (例如 2021-Q1) 就会与右侧的 next_period (例如 2021-Q1) 进行匹配,而右侧 next_period 为 2021-Q1 的行,其 current_period 实际上是 2020-Q1,从而成功获取了前一年同期的数据。
out = df.merge( df, how="left", left_on=["item", "current_period"], # 左侧DataFrame的当前季度 right_on=["item", "next_period"], # 右侧DataFrame的“前一年同期”季度 suffixes=('_current', '_prev') # 为区分同名列添加后缀)
步骤4:结果整理与展示
最后,选择并重命名所需的列,以获得清晰的输出结果。
final_df = out[["item", "quarter_current", "value_current", "value_prev"]].rename( columns={"quarter_current": "quarter", "value_current": "value", "value_prev": "value_prev"})print(final_df)
完整的代码和输出如下:
import pandas as pddf = pd.DataFrame({'item':['A','A','A','A','A','A','B','B','B','B','B','B','C','C','C','C','C','C'], 'quarter':['FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2', 'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2', 'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2'], 'value':[100,150,120,135,128,160,230,210,240,220,250,230,125,230,162,111,134,135]})# 步骤1:标准化季度数据并创建 PeriodIndexdf["current_period"] = df["quarter"].str.replace(r"FY(d+)_Q(d+)", r"201-Q2", regex=True)df["current_period"] = pd.PeriodIndex(df["current_period"], freq="Q")# 步骤2:创建前一年同期标识# 这里创建的是“当前季度 + 4个季度”的标识,用于后续合并df["next_period"] = df["current_period"] + 4# 步骤3:执行合并操作# 左侧的 current_period (例如 2021-Q1) 会匹配右侧的 next_period (例如 2021-Q1)# 这样右侧的实际 current_period (2020-Q1) 的 value 就会被拉过来out = df.merge( df, how="left", left_on=["item", "current_period"], right_on=["item", "next_period"], suffixes=('_current', '_prev'))# 步骤4:结果整理与展示final_df = out[["item", "quarter_current", "value_current", "value_prev"]].rename( columns={"quarter_current": "quarter", "value_current": "value", "value_prev": "value_prev"})print(final_df)
输出结果:
item quarter value value_prev0 A FY20_Q1 100 NaN1 A FY20_Q2 150 NaN2 A FY20_Q3 120 NaN3 A FY20_Q4 135 NaN4 A FY21_Q1 128 100.05 A FY21_Q2 160 150.06 B FY20_Q1 230 NaN7 B FY20_Q2 210 NaN8 B FY20_Q3 240 NaN9 B FY20_Q4 220 NaN10 B FY21_Q1 250 230.011 B FY21_Q2 230 210.012 C FY20_Q1 125 NaN13 C FY20_Q2 230 NaN14 C FY20_Q3 162 NaN15 C FY20_Q4 111 NaN16 C FY21_Q1 134 125.017 C FY21_Q2 135 230.0
可以看到,value_prev 列现在包含了前一年同期的数据,例如 FY21_Q1 的 value_prev 是 100.0,对应 FY20_Q1 的值。
注意事项与最佳实践
数据类型转换的重要性: 将季度/月份字符串转换为 PeriodIndex 是此方法的关键。PeriodIndex 提供了强大的时间偏移功能,使得计算前一年同期变得简单而准确。freq 参数的设定: 在创建 PeriodIndex 时,务必根据数据的实际频率(如 Q 代表季度,M 代表月份)设置 freq 参数。这将直接影响时间偏移的准确性。合并键的选取: 除了时间周期外,通常还需要一个业务维度(如 item)作为合并键,以确保不同业务实体之间的数据不会混淆。处理缺失值: 对于数据集中最早的年份,其同期数据将不存在,因此 value_prev 列会显示 NaN。这是预期行为,表示没有可供比较的前一年同期数据。灵活性: 这种方法不仅适用于季度数据,也适用于月份数据(只需将 freq=”Q” 改为 freq=”M”,并将偏移量 +4 改为 +12)。性能考量: 对于非常大的数据集,merge 操作通常是高效的。但在极端情况下,如果内存成为瓶颈,可能需要考虑其他优化策略,例如先设置 PeriodIndex 为DataFrame索引,然后使用 reindex 或自定义函数。
总结
通过将原始的季度或月份字符串数据转换为 PeriodIndex,并结合Pandas强大的 merge 操作,我们可以精确且高效地获取前一年同期的数据。这种方法避免了 shift() 函数在跨年同期比较时的局限性,为时序数据分析提供了坚实的基础。掌握这一技巧,将使您在处理复杂的时序比较任务时更加得心应手。
以上就是Pandas中获取同期季度/年度数据的专业指南的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/584833.html
微信扫一扫
支付宝扫一扫