Pandas 数据框:基于日期区间条件的数据填充技巧

Pandas 数据框:基于日期区间条件的数据填充技巧

本文详细介绍了如何利用 pandas 库,根据另一个 dataframe 中定义的日期范围条件,对目标 dataframe 进行数据填充。通过将日期列转换为标准格式,结合 `melt`、`merge_asof` 和 `pivot` 等操作,实现高效且精确的条件性数据合并与筛选,最终生成符合特定日期区间要求的数据视图。

在数据分析和处理中,我们经常需要根据复杂的条件从一个数据集填充或筛选另一个数据集。其中一种常见场景是基于日期范围进行条件性数据填充。例如,我们有一个包含公司及其有效日期范围的 DataFrame (df1),以及另一个包含每日公司数据值的 DataFrame (df2)。我们的目标是创建一个新的 DataFrame (df3),其中 df2 中的值仅在对应公司的日期落在 df1 定义的有效范围内时才保留,否则置为 NaN。

数据准备

首先,我们定义两个示例 DataFrame df1 和 df2。df1 包含每个公司的有效起始和结束日期,而 df2 包含每日的各项公司数据。

import pandas as pd# 定义 df1:包含公司及其有效日期范围data1 = {'company': {0: 'a', 1: 'b', 2: 'c', 3: 'd'},         'start date': {0: '2023-01-02', 1: '2023-01-05', 2: '2023-01-04', 3: '2023-01-03'},         'end date': {0: '2023-01-06', 1: '2023-01-12', 2: '2023-01-13', 3: '2023-01-10'}}df1 = pd.DataFrame(data1)# 定义 df2:包含每日的公司数据data2 = {'DATE': {0: '2023-01-02', 1: '2023-01-03', 2: '2023-01-04', 3: '2023-01-05',                  4: '2023-01-06', 5: '2023-01-09', 6: '2023-01-10', 7: '2023-01-11',                  8: '2023-01-12', 9: '2023-01-13'},         'a': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7, 7: 8, 8: 9, 9: 10},         'b': {0: 10, 1: 11, 2: 12, 3: 13, 4: 14, 5: 15, 6: 16, 7: 17, 8: 18, 9: 19},         'c': {0: 30, 1: 31, 2: 32, 3: 33, 4: 34, 5: 35, 6: 36, 7: 37, 8: 38, 9: 39},         'd': {0: 40, 1: 41, 2: 42, 3: 43, 4: 44, 5: 45, 6: 46, 7: 47, 8: 48, 9: 49}}df2 = pd.DataFrame(data2)print("df1 原始数据:")print(df1)print("ndf2 原始数据:")print(df2)

日期类型转换

在进行任何日期相关的操作之前,将日期列转换为 Pandas 的 datetime 类型至关重要。这确保了日期比较和合并的准确性。

df1['start date'] = pd.to_datetime(df1['start date'])df1['end date'] = pd.to_datetime(df1['end date'])df2['DATE'] = pd.to_datetime(df2['DATE'])print("ndf1 转换日期类型后:")print(df1)print("ndf2 转换日期类型后:")print(df2)

核心逻辑实现

为了实现基于日期范围的条件填充,我们将采用以下步骤:

数据重塑 (melt): 将 df2 从宽格式(每列代表一个公司)转换为长格式。这使得每个数据点(日期、公司、值)都成为一行,便于与 df1 进行合并。近似合并 (merge_asof): 使用 merge_asof 将 df2(长格式)与 df1 合并。merge_asof 是一种特殊的合并,它根据最近的键进行合并,而不是精确匹配。在这里,我们将 df2 的 DATE 与 df1 的 start date 进行近似合并,同时按 company 分组。条件筛选 (where): 合并后,我们将得到一个包含 DATE、company、value、start date 和 end date 的临时 DataFrame。然后,我们检查每个数据点的 DATE 是否落在对应的 start date 和 end date 之间。如果不在,则将 value 设置为 NaN。数据重塑 (pivot): 最后,将临时 DataFrame 重新 pivot 回原始的宽格式,以 DATE 为索引,company 为列,value 为值。

# 步骤1:将 df2 转换为长格式并按日期排序,以准备 merge_asoftmp = df2.melt('DATE', var_name='company').sort_values('DATE')# 步骤2:使用 merge_asof 进行近似合并# by='company' 表示在每个公司内部进行合并# left_on='DATE' 和 right_on='start date' 表示以 df2 的 DATE 和 df1 的 start date 进行近似匹配# 注意:merge_asof 要求左右 DataFrame 的合并键(这里是 DATE 和 start date)必须已排序df1_sorted = df1.sort_values('start date')tmp = pd.merge_asof(tmp, df1_sorted, by='company', left_on='DATE', right_on='start date')# 步骤3:根据日期范围条件筛选值# .where() 方法会根据条件保留值,不满足条件的置为 NaNdf3_filtered = tmp.assign(value=tmp['value'].where(    (tmp['DATE'] >= tmp['start date']) & (tmp['DATE'] <= tmp['end date'])))# 步骤4:将数据透视回宽格式# index='DATE' 设置日期为行索引# columns='company' 设置公司为列名# values='value' 设置填充的值df3 = df3_filtered.pivot(index='DATE', columns='company', values='value')                   .rename_axis('', axis=1)                   .reset_index()print("ndf3 期望输出:")print(df3)

完整示例代码

以下是整合了所有步骤的完整代码,可以直接运行:

import pandas as pd# 原始数据定义data1 = {'company': {0: 'a', 1: 'b', 2: 'c', 3: 'd'},         'start date': {0: '2023-01-02', 1: '2023-01-05', 2: '2023-01-04', 3: '2023-01-03'},         'end date': {0: '2023-01-06', 1: '2023-01-12', 2: '2023-01-13', 3: '2023-01-10'}}df1 = pd.DataFrame(data1)data2 = {'DATE': {0: '2023-01-02', 1: '2023-01-03', 2: '2023-01-04', 3: '2023-01-05',                  4: '2023-01-06', 5: '2023-01-09', 6: '2023-01-10', 7: '2023-01-11',                  8: '2023-01-12', 9: '2023-01-13'},         'a': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7, 7: 8, 8: 9, 9: 10},         'b': {0: 10, 1: 11, 2: 12, 3: 13, 4: 14, 5: 15, 6: 16, 7: 17, 8: 18, 9: 19},         'c': {0: 30, 1: 31, 2: 32, 3: 33, 4: 34, 5: 35, 6: 36, 7: 37, 8: 38, 9: 39},         'd': {0: 40, 1: 41, 2: 42, 3: 43, 4: 44, 5: 45, 6: 46, 7: 47, 8: 48, 9: 49}}df2 = pd.DataFrame(data2)# 1. 转换日期列为 datetime 类型df1['start date'] = pd.to_datetime(df1['start date'])df1['end date'] = pd.to_datetime(df1['end date'])df2['DATE'] = pd.to_datetime(df2['DATE'])# 2. 将 df2 转换为长格式并排序tmp = df2.melt('DATE', var_name='company').sort_values('DATE')# 3. 对 df1 进行排序,以满足 merge_asof 的要求df1_sorted = df1.sort_values('start date')# 4. 使用 merge_asof 进行近似合并# left_on='DATE' 和 right_on='start date' 确保将 df2 的 DATE 与 df1 中不大于该 DATE 的最近 start date 合并tmp = pd.merge_asof(tmp, df1_sorted, by='company', left_on='DATE', right_on='start date')# 5. 根据日期范围条件筛选值# 只有当 df2 的 DATE 在 df1 定义的 [start date, end date] 范围内时,才保留其值df3 = tmp.assign(value=tmp['value'].where(    (tmp['DATE'] >= tmp['start date']) & (tmp['DATE'] <= tmp['end date'])))          .pivot(index='DATE', columns='company', values='value')          .rename_axis('', axis=1)          .reset_index()print("n最终结果 df3:")print(df3)

注意事项与总结

日期类型的重要性: 始终确保涉及日期比较的列是 datetime 类型。不一致的类型会导致错误或意外结果。merge_asof 的排序要求: merge_asof 函数要求左右 DataFrame 的合并键(在本例中是 DATE 和 start date)必须是已排序的。如果未排序,结果将不准确。数据重塑的必要性: melt 和 pivot 操作是处理这种宽-长-宽转换问题的关键。它们使得在多列之间应用条件变得可行。条件逻辑: (tmp[‘DATE’] >= tmp[‘start date’]) & (tmp[‘DATE’] 性能考量: 对于非常大的数据集,melt 和 pivot 操作可能会消耗较多内存和计算资源。在处理大规模数据时,应评估其性能影响。

通过上述步骤,我们能够高效且准确地根据复杂的日期范围条件,从一个 DataFrame 中有选择性地填充另一个 DataFrame 的数据,这在财务分析、事件日志处理等领域具有广泛应用。

以上就是Pandas 数据框:基于日期区间条件的数据填充技巧的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1377439.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 17:46:40
下一篇 2025年12月14日 17:46:49

相关推荐

  • 使用Pandas和SQL高效重构长格式数据为列表型数组

    本文探讨了如何将从SQL数据库中获取的长格式数据(Time, QuantityMeasured, Value)高效重构为Pandas中的宽格式列表型数组。文章对比了多种Python和Pandas处理方法,并提出了一种优化的Pandas策略,即先筛选再透视,以减少处理的数据量。此外,还介绍了将数据重构…

    2025年12月14日
    000
  • 使用 Pandas 加速 SQL 表格数据重构的实用指南

    本文旨在提供一种高效的方法,利用 Pandas 库对从 SQL 数据库中提取的数据进行重构,特别是将长格式数据转换为宽格式数据。我们将探讨如何通过预先筛选数据和使用 `pivot` 或 `set_index/unstack` 方法来优化数据重构过程,并讨论在 Python 中进行此类操作的性能瓶颈。…

    2025年12月14日
    000
  • Python函数中如何返回字典键名而非值

    本文旨在解决Python函数中常见的误区:当需要根据字典值进行判断并返回其对应键名时,误将字典值作为参数传入,导致`AttributeError`。我们将详细阐述问题根源,并提供一种推荐的解决方案,即在函数调用时传入字典的键名而非值,从而在函数内部通过键名访问字典并实现正确逻辑。 在Python编程…

    2025年12月14日
    000
  • Python函数参数传递:从值到键的转换策略

    本文旨在解决python函数中一个常见的参数传递误区:当函数需要引用字典的键(如资源名称)时,却错误地接收了键对应的数值,导致尝试对非字典类型使用`.key()`方法而引发`attributeerror`。教程将通过重构函数参数,演示如何直接传递键名,从而在函数内部通过键访问字典值,并确保在输出中正…

    2025年12月14日
    000
  • 解决 Python SQLite 中 FOREIGN KEY 约束失败的问题

    当在 Python 中使用 SQLite 遇到“FOREIGN KEY constraint failed”错误时,通常是由于数据插入顺序不当导致的。外键约束要求引用的父表记录必须先于子表记录存在。本文将详细解析此错误的原因,并提供通过调整数据插入顺序、利用数据库事务以及优化数据库模式来解决和避免此…

    2025年12月14日
    000
  • 如何在Python函数中返回字典的键而非值

    本文探讨了在Python函数中根据字典值进行比较时,如何正确地返回对应的键名。核心问题在于将字典的值(整数)误认为字典本身,并尝试调用其`.key()`方法。解决方案是修改函数设计,使其接收字典的键名(字符串)作为参数,并在函数内部使用该键名来访问字典的实际值,从而实现在f-string中返回键名的…

    2025年12月14日
    000
  • Pandas与SQL高效数据重构:从长格式到宽格式的性能优化实践

    本文深入探讨了如何高效地将sql数据库中拉取的长格式数据重构为pandas中的宽格式,并最终转换为独立的python列表。我们比较了多种客户端(pandas)和服务器端(sql)的优化策略,包括预过滤、`pivot`、`set_index`与`unstack`组合,以及利用sql的`case`语句进…

    2025年12月14日
    000
  • 使用Pandas标准化数据标签:按ID获取最常见或首个标签

    本文介绍如何使用Pandas高效地标准化数据集中的标签列。针对每个唯一ID,我们将根据其出现频率选择最常见的标签作为标准标签;若存在并列最常见的标签,则默认选择首次出现的标签。文章将通过实际代码示例,详细阐述实现这一逻辑的多种方法,并强调`Series.mode()`方法的简洁与高效性。 引言:数据…

    2025年12月14日
    000
  • 通过邀请链接获取Telegram频道实体:兼顾已加入与未加入情况

    本教程旨在解决通过telegram邀请链接获取频道实体时遇到的挑战。针对用户已加入和未加入频道两种情况,我们提供了一种健壮的解决方案。通过结合使用`client.get_entity`和`functions.messages.importchatinviterequest`,并配合异常处理机制,开发…

    2025年12月14日
    000
  • Flask-SocketIO与uWSGI多进程部署中的异步模式配置指南

    本文旨在解决flask-socketio与uwsgi结合部署时常见的异步模式配置错误。核心问题在于未正确指定socketio的异步驱动,导致与uwsgi的gevent环境冲突。通过设置`async_mode=’gevent_uwsgi’`并优化uwsgi的多进程配置为单进程g…

    2025年12月14日
    000
  • Django表单:基于用户信息自动填充并禁用字段

    本文档旨在解决Django表单中根据用户信息自动填充字段,并禁止用户修改该字段的需求。通过配置表单字段的`disabled`属性,以及在视图中正确处理用户数据,可以实现字段的自动填充和禁用,同时确保表单能够成功提交。本文将提供详细的代码示例和步骤,帮助开发者轻松实现这一功能。 解决方案 核心在于正确…

    2025年12月14日
    000
  • structlog 日志输出的临时抑制:测试与控制实践

    在使用 structlog 进行日志记录时,测试代码中经常需要临时抑制特定代码块的日志输出,以避免测试报告被不必要的错误信息淹没。本文将介绍如何利用 `structlog.testing.capture_logs` 上下文管理器,并通过自定义封装,实现简洁高效的日志临时抑制机制,确保测试环境的整洁与…

    2025年12月14日
    000
  • 使用 Argparse 在子命令间灵活添加可选参数

    本文旨在解决在使用 `argparse` 创建带有子命令的命令行工具时,如何允许用户在命令行中的任意位置传递可选参数(例如 `-j` 或 `–json`)的问题。我们将探讨一种通过为每个解析器实例添加带唯一ID的参数,并在解析后合并结果来实现此目的的解决方案。 在使用 argparse …

    2025年12月14日
    000
  • NumPy高级索引:高效更新二维数组的坐标点数据

    本文深入探讨了在numpy中如何高效、正确地利用坐标列表更新二维数组。通过分析常见的索引误区,特别是对多维数组进行序列化索引的问题,文章详细介绍了numpy高级索引的两种核心方法:使用分离的行/列索引数组和使用结构化数组字段。强调了向量化操作的重要性,以避免低效的python循环,从而实现高性能的数…

    2025年12月14日
    000
  • 允许子命令之间任意位置的可选参数

    本文介绍了如何在使用 `argparse` 创建带有子命令的工具时,允许用户在命令行中的任何位置传递可选参数(例如 `-j` 或 `–json`)。核心思路是将该可选参数添加到主解析器和所有子解析器,并使用不同的目标名称存储其值。最后,通过检查所有目标名称的值,确定最终的参数值。 在使用…

    2025年12月14日
    000
  • 使用 pycaw 稳定检测 Windows 音频播放状态

    本文详细介绍了如何使用 python 的 `pycaw` 库在 windows 系统上可靠地检测音频播放状态。针对常见的使用 `ctypes` 和 `comtypes` 导致程序崩溃的问题,文章提供了一种极简且稳定的解决方案,通过直接访问 `pycaw` 会话对象的 `state` 属性,避免了复杂…

    2025年12月14日
    000
  • Django:定时删除数据库中过期数据

    本文介绍了如何在 Django 框架中实现自动删除数据库中创建时间超过 15 天的数据。我们将探讨使用 Celery 及其周期性任务来完成此目标,避免使用信号可能存在的问题,并提供具体代码示例,帮助开发者轻松实现数据清理自动化。 在 Django 项目中,经常需要定期清理数据库中不再需要的数据,例如…

    2025年12月14日
    000
  • Python类型注解的最佳实践:局部变量与函数签名的权衡

    本文深入探讨python类型注解在局部变量和函数签名中的应用策略。我们发现,尽管类型注解对代码可读性和静态分析工具的支持至关重要,但对局部变量进行过度注解通常是冗余的。这主要是因为类型推断能力、函数签名的明确标注已能提供足够信息,且过度注解会增加代码的冗余度。最佳实践建议开发者应重点关注函数参数和返…

    2025年12月14日
    000
  • Django表单用户字段自动填充与禁用编辑

    本文档旨在解决Django表单中用户名字段自动填充并禁止用户编辑的问题。通过设置字段的默认值和禁用属性,可以实现用户名字段的自动填充,并防止用户在表单中修改该字段的值,从而保证数据的准确性和安全性。本文提供详细的代码示例和步骤,帮助开发者轻松实现此功能。 问题描述 在Django表单中,我们经常需要…

    2025年12月14日
    000
  • Django 定时删除过期数据:使用 Celery 实现

    本文档旨在指导开发者如何在 Django 项目中实现自动删除过期数据的功能。通过集成 Celery 异步任务队列,我们可以创建一个定时任务,定期检查并删除数据库中创建时间超过指定期限(例如 15 天)的数据,从而保持数据库的整洁和性能。本文将提供详细的步骤和示例代码,帮助你快速上手。 在 Djang…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信