高效处理Pandas时间序列数据:7天内事件关联与聚合

高效处理Pandas时间序列数据:7天内事件关联与聚合

本教程探讨如何在Pandas中高效地将一个DataFrame中的事件与另一个DataFrame中特定时间窗口(例如7天内)内的相关事件进行关联和聚合。我们将介绍两种主要方法:利用pyjanitor库的conditional_join进行非等值条件连接,以及纯Pandas的merge与筛选组合。教程将详细演示代码实现,并比较两种方法的优缺点,帮助读者根据实际场景选择最适合的解决方案。

场景描述与问题背景

在数据分析中,我们经常需要处理两个或多个时间序列数据集,并根据特定的时间窗口进行关联。例如,我们可能有一个记录用户交易(trade)的dataframe,以及另一个记录用户浏览历史(view)的dataframe。我们的目标是为每笔交易找出其发生前7天内的所有相关浏览记录,并将其聚合到交易记录中。这里的“相关”不仅指时间上的接近,还包括了用户(person)和商品代码(code)等共同标识符的匹配。

传统的pd.merge_asof函数常用于近似合并,但它通常只为每个源行找到一个最近的匹配项,或者在指定容忍度内进行匹配,但其设计并非为了收集一个源行对应的所有可能匹配项。例如,如果一个交易对应多个浏览记录,merge_asof可能无法将所有这些记录都关联起来,因为它倾向于“消费”匹配到的行。因此,我们需要一种更灵活的方法来实现这种多对多的时间窗口内关联。

数据准备

首先,我们创建两个示例DataFrame来模拟交易数据和浏览历史数据:

import pandas as pdimport janitor # 稍后会用到# 交易数据trade = pd.DataFrame({    'date': ['2019-08-31', '2019-09-01', '2019-09-04'],    'person': [1, 1, 2],    'code': [123, 123, 456],    'value1': [1, 2, 3]})# 浏览历史数据view = pd.DataFrame({    'date': ['2019-08-29', '2019-08-29', '2019-08-30', '2019-08-31', '2019-09-01',             '2019-09-01', '2019-09-01', '2019-09-02', '2019-09-03'],    'person': [1, 1, 1, 2, 1, 2, 2, 1, 2],    'code': [123, 456, 123, 456, 123, 123, 456, 123, 456],    'value': [1, 2, 3, 4, 5, 6, 7, 8, 9]})# 将日期列转换为datetime对象,这是时间序列操作的基础trade['date'] = pd.to_datetime(trade['date'])view['date'] = pd.to_datetime(view['date'])print("交易数据 (trade DataFrame):")print(trade)print("n浏览历史数据 (view DataFrame):")print(view)

解决方案一:使用 pyjanitor.conditional_join (推荐)

pyjanitor库提供了一个强大的conditional_join函数,专门用于执行基于多个条件的非等值连接。它在处理此类时间窗口关联问题时,通常比纯Pandas方法更高效。

实现步骤

创建时间窗口辅助列: 为trade DataFrame添加一个start_date列,表示每笔交易发生日期前7天的起始日期。重命名 view DataFrame 列: 为了避免合并后的列名冲突,并使输出结果更清晰,我们预先重命名view DataFrame中的date和value列。执行条件连接: 使用conditional_join函数,指定以下连接条件:trade.start_date trade.date >= view.view_dates (浏览记录日期不晚于交易日期)trade.person == view.person (用户ID匹配)trade.code == view.code (商品代码匹配)清理与格式化: 删除不再需要的辅助列start_date,并将view_dates列格式化为字符串。聚合结果: 根据trade DataFrame的原始列进行分组,并将匹配到的view_dates和view_values聚合成列表。

示例代码

out_janitor = (trade  .assign(start_date=lambda d: d['date'].sub(pd.DateOffset(days=7))) # 步骤1  .conditional_join(view.rename(columns={'date': 'view_dates', 'value': 'view_values'}), # 步骤2                    ('start_date', 'view_dates', '='),     # 步骤3: 条件2                    ('person', 'person', '=='),       # 步骤3: 条件3                    ('code', 'code', '=='),           # 步骤3: 条件4                    right_columns=['view_dates', 'view_values'] # 保留右侧特定列                   )  .drop(columns='start_date') # 步骤4: 删除辅助列  .assign(view_dates=lambda d: d['view_dates'].dt.strftime('%Y-%m-%d')) # 步骤4: 格式化日期  .groupby(list(trade.columns), as_index=False).agg(list) # 步骤5: 分组聚合)print("n使用 pyjanitor.conditional_join 的结果:")print(out_janitor)

注意事项

pyjanitor是一个第三方库,需要通过pip install pyjanitor安装。conditional_join在处理大型数据集和复杂连接条件时,通常比纯Pandas的merge后筛选更高效,因为它在内部可能使用了更优化的算法。

解决方案二:纯 Pandas 实现

如果不想引入额外的库,也可以纯粹使用Pandas的merge和筛选操作来达到相同的效果。这种方法虽然直观,但在处理大型数据集时,可能会因为生成一个非常大的中间DataFrame而导致性能问题。

实现步骤

执行全量合并: 首先,基于共同的person和code列,对trade和view DataFrame执行一个内连接(merge)。这将生成所有可能的person和code组合的交易与浏览记录。筛选时间窗口: 在合并后的DataFrame上,应用时间窗口筛选条件:trade.date > view.view_dates (浏览记录必须发生在交易之前)trade.date – 7天 格式化与聚合: 将view_dates列格式化为字符串,然后按照trade DataFrame的原始列进行分组,并将匹配到的view_dates和view_values聚合成列表。

示例代码

out_pandas = (trade .merge(view.rename(columns={'date': 'view_dates', 'value': 'view_values'}), # 步骤1: 全量合并并重命名        on=['person', 'code']) .loc[lambda d: d['date'].gt(d['view_dates']) & # 步骤2: 筛选条件1 (浏览在交易之前)      d['date'].sub(pd.DateOffset(days=7)).le(d['view_dates']) # 步骤2: 筛选条件2 (浏览在交易前7天内)     ] .assign(view_dates=lambda d: d['view_dates'].dt.strftime('%Y-%m-%d')) # 步骤3: 格式化日期 .groupby(list(trade.columns), as_index=False).agg(list) # 步骤3: 分组聚合)print("n使用纯 Pandas 实现的结果:")print(out_pandas)

注意事项

这种方法在merge阶段会生成一个包含所有person和code组合的笛卡尔积(如果on条件不唯一),然后才进行时间筛选。如果person和code组合很多,或者每个组合下的交易和浏览记录都很多,这个中间DataFrame可能会非常庞大,占用大量内存并降低性能。对于数据量较小或中等的情况,这种方法是完全可行的,并且不需要额外的库依赖。

结果验证与对比

两种方法都成功生成了预期的输出,为每笔交易关联了其发生前7天内的所有相关浏览记录,并将这些记录的日期和值聚合为列表:

        date  person  code  value1                            view_dates view_values0 2019-08-31       1   123       1              [2019-08-29, 2019-08-30]      [1, 3]1 2019-09-01       1   123       2  [2019-08-29, 2019-08-30, 2019-09-01]   [1, 3, 5]2 2019-09-04       2   456       3  [2019-08-31, 2019-09-01, 2019-09-03]   [4, 7, 9]

可以看到,对于第一笔交易(2019-08-31, person 1, code 123),关联到了2019-08-29和2019-08-30的浏览记录。对于第二笔交易(2019-09-01, person 1, code 123),关联到了2019-08-29、2019-08-30和2019-09-01的浏览记录,这正是merge_asof无法直接实现的多对多关联需求。

总结

本教程介绍了两种在Pandas中处理时间序列数据,实现特定时间窗口内多对多关联和聚合的方法:

pyjanitor.conditional_join: 适用于需要进行复杂非等值连接的场景,尤其是在处理大型数据集时,其性能通常更优。它能够直接在多个条件(包括范围条件)下进行连接,避免了生成巨大的中间DataFrame。纯 Pandas merge + 筛选: 适用于数据量较小或中等的场景,不需要额外库依赖。但其缺点在于可能生成一个非常大的中间DataFrame,从而影响性能和内存使用。

在实际应用中,建议优先考虑pyjanitor.conditional_join,特别是在处理大规模数据时,以获得更好的性能和更简洁的代码。如果项目严格限制外部依赖,且数据规模可控,纯Pandas方案也是一个可行的选择。无论选择哪种方法,将日期列正确转换为datetime对象是进行时间序列操作的关键前提。

以上就是高效处理Pandas时间序列数据:7天内事件关联与聚合的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1369589.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 09:47:55
下一篇 2025年12月14日 09:48:11

相关推荐

  • Pandas中基于多条件和时间窗口匹配并聚合多条记录

    本教程探讨了如何在Pandas中,根据多个匹配条件和一个指定的时间窗口(例如7天内),从一个DataFrame中关联并聚合所有符合条件的记录到另一个DataFrame。文章详细介绍了两种实现方法:一种是利用pyjanitor库的conditional_join功能,该方法在处理复杂条件时更为高效;另…

    好文分享 2025年12月14日
    000
  • 重构Python嵌套字典:实现“轴向”层级交换

    本文旨在解决Python中嵌套字典的层级重构问题,特别是如何像numpy.rollaxis一样交换内部和外部键的顺序。我们将通过一个具体的示例,详细讲解如何通过引用赋值和清理操作,将model -> epoch -> dataset的结构转换为model -> dataset -&…

    2025年12月14日
    000
  • 如何安全有效地检查 PyMongo Cursor 是否为空

    本文旨在帮助开发者了解如何正确判断 PyMongo Cursor 是否为空,避免pymongo.errors.InvalidOperation错误。文章将介绍几种有效的方法,并提供示例代码,帮助读者在实际项目中安全地处理 Cursor 对象。 在使用 PyMongo 操作 MongoDB 数据库时,…

    2025年12月14日
    000
  • Python 跨模块异常处理与自定义异常实践指南

    本文深入探讨了Python中跨模块异常处理的机制与实践。我们将学习如何定义和正确地在不同模块中引发自定义异常,并确保这些异常能在主程序中被捕获和处理。同时,文章还将讨论模块导入的最佳实践,帮助开发者构建结构清晰、健壮的Python应用。 Python 异常的跨模块传播机制 python的异常处理机制…

    2025年12月14日
    000
  • Python 跨模块异常处理:自定义异常的定义与捕获实践

    Python 允许在不同模块间有效地引发和捕获异常,这对于构建健壮、可维护的应用程序至关重要。本教程将深入探讨如何在 Python 中定义自定义异常、跨模块引发异常并进行捕获处理,以及在导入和使用自定义异常时的最佳实践,旨在帮助开发者实现更精细的错误管理和更清晰的代码结构。 理解 Python 异常…

    2025年12月14日
    000
  • 理解 Python 赋值语句的语法结构

    赋值语句是任何编程语言的基础,Python 也不例外。为了理解 Python 赋值语句的底层语法结构,我们需要深入研究其 Backus-Naur 范式(BNF)定义。很多人在初次接触 Python 语法定义时,可能会对复杂的 BNF 表达式感到困惑,尤其是当试图将一个简单的赋值语句,例如 a = 9…

    2025年12月14日
    000
  • Python跨模块异常处理与自定义异常实践

    本文深入探讨了Python中跨模块处理异常的机制,特别是如何有效捕获和处理在不同模块中抛出的自定义异常。文章详细解释了try…except块的正确使用方式,强调了自定义异常的定义与导入策略,并提供了清晰的代码示例,旨在帮助开发者构建更健壮、可维护的Python应用。 在python编程中…

    2025年12月14日
    000
  • 深入理解Python赋值语句的BNF结构

    本文旨在深入解析Python赋值语句的巴科斯-诺尔范式(BNF)结构,特别是针对初学者常遇到的困惑:一个简单的数字字面量(如9)如何符合复杂的右侧表达式语法。通过详细追溯从starred_expression到literal的完整解析路径,并强调BNF中可选语法元素的设计,揭示Python语法解析的…

    2025年12月14日
    000
  • 深入理解Python赋值语句的BNF语法解析

    本文深入探讨Python赋值语句的BNF(巴科斯-瑙尔范式)语法结构,重点解析了简单赋值操作如a=9中,右侧数值9是如何通过starred_expression递归匹配到expression,并最终解析为literal中的integer类型。通过逐层剖析Python表达式的BNF定义,揭示了许多语法…

    2025年12月14日
    000
  • 深入理解Python赋值语句的BNF语法结构

    Python赋值语句的BNF语法初看复杂,尤其是像a=9这样的简单赋值,其右侧的数字字面量9如何匹配starred_expression或yield_expression。核心在于starred_expression可直接是expression,而expression通过一系列递归定义最终涵盖了li…

    2025年12月14日
    000
  • # 使用 Setuptools 注册多个 Pluggy 插件

    本文介绍了如何使用 Setuptools 正确注册多个 Pluggy 插件,以便它们可以协同工作。核心在于理解 Pluggy 插件的命名规则,以及如何通过 Entry Points 将插件正确地注册到 PluginManager 中。通过修改 `pyproject.toml` 文件中的 Entry …

    2025年12月14日
    000
  • Pluggy多插件管理:Setuptools入口点配置深度解析

    本文深入探讨了如何使用Setuptools正确注册和管理多个Pluggy插件。针对常见问题,即仅最后一个注册插件生效,教程详细阐述了Setuptools入口点名称与Pluggy插件名称的对应关系,并提供了正确的配置示例,确保所有实现同一钩子规范的插件都能被Pluggy管理器发现并按序执行,从而构建健…

    2025年12月14日
    000
  • 掌握pluggy与setuptools多插件注册机制

    本文深入探讨了如何利用pluggy和setuptools正确注册和管理多个Python插件。核心在于理解pluggy中插件名称与钩子名称的区别,并确保每个插件通过setuptools入口点以独有的名称进行注册。通过修改pyproject.toml配置和在插件管理器中添加钩子规范,可以实现多个插件对同…

    2025年12月14日
    000
  • 如何使用 Setuptools 为 Pluggy 注册多个插件

    本文旨在解决使用 Setuptools entry points 注册多个 Pluggy 插件时遇到的常见冲突问题。核心在于理解 Pluggy 如何通过 entry point 名称识别插件,并指出当多个插件尝试使用相同的 entry point 名称时,只有最后一个注册的插件会生效。教程将详细阐述…

    2025年12月14日
    000
  • 使用While循环和自定义偏移量解码文本

    本文详细介绍了如何使用Python中的while循环和基于字符ASCII值的自定义偏移逻辑来解码一段混淆的文本。我们将探讨findNext函数如何根据字符类型(大小写字母、数字或特殊字符)计算移动步长,以及decode函数如何利用这个步长迭代并重构原始信息,同时遵守不使用with open语句的限制…

    2025年12月14日
    000
  • 解码复杂文本:使用While循环和自定义偏移量解析字符序列

    本教程详细介绍了如何利用Python的while循环和自定义字符偏移逻辑来解码一段复杂的文本。通过定义一个findNext函数计算基于字符ASCII值的步进长度,并结合主解码函数中的while循环迭代处理字符串,我们能够精确地从源文本中提取目标字符,最终还原出原始信息,无需使用with open语句…

    2025年12月14日
    000
  • 使用 while 循环和动态偏移量解码文本

    本文详细介绍了如何使用 while 循环和基于字符类型(大小写字母、数字、其他字符)的动态偏移量来解码一段加密文本。教程将展示 findNext 函数如何计算每次前进的字符数,以及 decode 函数如何迭代字符串并构建解密结果,同时提供了不使用 with open 语句处理文件输入输出的示例。 挑…

    2025年12月14日
    000
  • Python中变量赋值的奥秘:理解并行赋值与顺序赋值的差异

    本文深入探讨了Python中变量赋值的关键区别,特别是并行赋值(如a, b = b, a + b)和顺序赋值(如a = b后跟b = a + b)之间的行为差异。文章通过斐波那契数列生成的实际案例,详细解释了Python在执行赋值操作时,右侧表达式会先被完全求值,然后才进行左侧的赋值。这对于理解为何…

    2025年12月14日
    000
  • 深入理解Python变量赋值:同步与顺序操作的差异与应用

    本文深入探讨Python中变量赋值机制,特别是同步赋值(如a, b = b, a + b)与顺序赋值(如a = b; b = a + b)之间的核心差异。通过斐波那契数列生成的具体案例,揭示两种方式在表达式求值顺序上的本质区别,并提供使用临时变量实现正确顺序赋值的方法,旨在帮助开发者避免常见陷阱,编…

    2025年12月14日
    000
  • Python 中变量赋值的差异:深入理解多重赋值

    本文旨在深入解析 Python 中多重赋值与单行赋值的差异,尤其是在涉及变量更新的场景下。通过 Fibonacci 数列的例子,我们将详细解释 a, b = b, a + b 和 a = b; b = a + b 两种写法的本质区别,并提供使用临时变量的替代方案,帮助读者彻底理解 Python 变量…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信