使用Pandas基于日期范围条件填充DataFrame

程序猿 • 2025年12月14日 17:46:53 • 用户投稿 • 阅读 1

本教程详细阐述了如何利用pandas库，根据另一dataframe中定义的日期范围条件，选择性地填充目标dataframe。通过结合`melt`、`merge_asof`和条件筛选等高级操作，我们能够高效地实现复杂的数据匹配与转换，最终生成符合特定日期逻辑的输出结果，适用于需要精确日期区间数据处理的场景。

在数据分析和处理中，我们经常会遇到需要根据特定条件从一个数据集填充或筛选另一个数据集的场景。特别是当条件涉及日期范围时，传统的合并或查找操作可能变得复杂。本文将介绍一种高效的方法，利用Pandas的melt、merge_asof和条件筛选功能，实现基于日期范围的DataFrame数据填充。

1. 数据准备与预处理

首先，我们需要准备示例数据并确保日期列被正确识别为datetime类型。这是进行任何日期相关操作的基础。

import pandas as pd# 示例数据框 df1 (条件日期范围)data1 = {'company': {0: 'a', 1: 'b', 2: 'c', 3: 'd'},         'start date': {0: '2023-01-02', 1: '2023-01-05', 2: '2023-01-04', 3: '2023-01-03'},         'end date': {0: '2023-01-06', 1: '2023-01-12', 2: '2023-01-13', 3: '2023-01-10'}}df1 = pd.DataFrame(data1)# 示例数据框 df2 (待填充数据)data2 = {'DATE': {0: '2023-01-02', 1: '2023-01-03', 2: '2023-01-04', 3: '2023-01-05',                  4: '2023-01-06', 5: '2023-01-09', 6: '2023-01-10', 7: '2023-01-11',                  8: '2023-01-12', 9: '2023-01-13'},         'a': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7, 7: 8, 8: 9, 9: 10},         'b': {0: 10, 1: 11, 2: 12, 3: 13, 4: 14, 5: 15, 6: 16, 7: 17, 8: 18, 9: 19},         'c': {0: 30, 1: 31, 2: 32, 3: 33, 4: 34, 5: 35, 6: 36, 7: 37, 8: 38, 9: 39},         'd': {0: 40, 1: 41, 2: 42, 3: 43, 4: 44, 5: 45, 6: 46, 7: 47, 8: 48, 9: 49}}df2 = pd.DataFrame(data2)# 将所有日期列转换为datetime对象df1['start date'] = pd.to_datetime(df1['start date'])df1['end date'] = pd.to_datetime(df1['end date'])df2['DATE'] = pd.to_datetime(df2['DATE'])print("df1 (条件日期范围):")print(df1)print("ndf2 (待填充数据):")print(df2)

2. 核心逻辑：数据融合与条件筛选

实现基于日期范围填充的关键在于巧妙地结合melt、merge_asof和条件赋值。

2.1 数据扁平化 (melt)

df2是一个宽格式的DataFrame，其中列名（’a’, ‘b’, ‘c’, ‘d’）代表不同的公司。为了与df1中的company列进行匹配，我们需要将df2转换为长格式。melt函数可以实现这一目的，它将指定的列转换为行，并创建新的列来存储原始列名和对应的值。

# 将df2从宽格式转换为长格式，以便按公司和日期进行匹配# 'DATE'列保持不变，其他列名作为新的'company'列的值，对应的数据作为'value'列的值df2_melted = df2.melt('DATE', var_name='company', value_name='value')# merge_asof要求合并的键必须是有序的，因此对DATE列进行排序df2_melted = df2_melted.sort_values('DATE')print("ndf2_melted (扁平化后的df2):")print(df2_melted.head())

2.2 近似合并 (merge_asof)

merge_asof是一个强大的合并函数，它允许在不完全匹配的情况下进行合并，特别适用于时间序列数据。它会根据指定的键，将右侧DataFrame中“最接近”或“在之前”的行合并到左侧DataFrame中。

在本例中，我们将df2_melted与df1合并。

by=’company’：指定在合并前，按company列进行分组。这意味着对于每个公司，将独立进行合并操作。left_on=’DATE’：df2_melted中用于合并的左键是DATE列。right_on=’start date’：df1中用于合并的右键是start date列。direction=’backward’（默认行为）：merge_asof会寻找right_on列中最大且小于或等于left_on列值的行进行匹配。

为了确保merge_asof的正确性，两个DataFrame都必须根据合并键进行排序。

# 对df1按'start date'排序，以便merge_asof使用df1_sorted = df1.sort_values('start date')# 使用merge_asof进行近似合并# 它将df2_melted的每个DATE与df1_sorted中对应company的最近且不晚于该DATE的start date进行匹配tmp = pd.merge_asof(df2_melted, df1_sorted,                    by='company', left_on='DATE', right_on='start date')print("ntmp (merge_asof合并结果):")print(tmp.head())

2.3 条件过滤与赋值 (.where())

merge_asof已经帮助我们匹配了每个DATE与对应的start date。现在，我们需要引入end date的条件。我们只保留那些DATE在start date和end date范围内的值。where方法非常适合这种场景，它根据条件保留或替换DataFrame中的值。

# 应用结束日期条件：只有当DATE小于或等于end date时，才保留'value'，否则设为NaNtmp['value'] = tmp['value'].where(tmp['DATE'].le(tmp['end date']))print("ntmp (应用结束日期条件后):")print(tmp.head())

2.4 数据重塑 (pivot)

经过上述操作，tmpDataFrame包含了我们筛选出的符合日期范围的值。最后一步是将数据从长格式重新转换回所需的宽格式，即以DATE为索引，company为列名，value为数据。

# 使用pivot将数据重塑回宽格式df3 = tmp.pivot(index='DATE', columns='company', values='value')         .rename_axis('', axis=1).reset_index() # 清除列轴名称并重置索引print("ndf3 (最终结果):")print(df3)

3. 完整示例代码

以下是整合了所有步骤的完整代码：

import pandas as pd# 1. 数据准备data1 = {'company': {0: 'a', 1: 'b', 2: 'c', 3: 'd'},         'start date': {0: '2023-01-02', 1: '2023-01-05', 2: '2023-01-04', 3: '2023-01-03'},         'end date': {0: '2023-01-06', 1: '2023-01-12', 2: '2023-01-13', 3: '2023-01-10'}}df1 = pd.DataFrame(data1)data2 = {'DATE': {0: '2023-01-02', 1: '2023-01-03', 2: '2023-01-04', 3: '2023-01-05',                  4: '2023-01-06', 5: '2023-01-09', 6: '2023-01-10', 7: '2023-01-11',                  8: '2023-01-12', 9: '2023-01-13'},         'a': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7, 7: 8, 8: 9, 9: 10},         'b': {0: 10, 1: 11, 2: 12, 3: 13, 4: 14, 5: 15, 6: 16, 7: 17, 8: 18, 9: 19},         'c': {0: 30, 1: 31, 2: 32, 3: 33, 4: 34, 5: 35, 6: 36, 7: 37, 8: 38, 9: 39},         'd': {0: 40, 1: 41, 2: 42, 3: 43, 4: 44, 5: 45, 6: 46, 7: 47, 8: 48, 9: 49}}df2 = pd.DataFrame(data2)# 2. 日期类型转换df1['start date'] = pd.to_datetime(df1['start date'])df1['end date'] = pd.to_datetime(df1['end date'])df2['DATE'] = pd.to_datetime(df2['DATE'])# 3. 核心处理逻辑# 3.1 扁平化df2df2_melted = df2.melt('DATE', var_name='company', value_name='value').sort_values('DATE')# 3.2 排序df1 (merge_asof要求)df1_sorted = df1.sort_values('start date')# 3.3 使用merge_asof进行近似合并tmp = pd.merge_asof(df2_melted, df1_sorted,                    by='company', left_on='DATE', right_on='start date')# 3.4 应用结束日期条件tmp['value'] = tmp['value'].where(tmp['DATE'].le(tmp['end date']))# 3.5 重塑数据回宽格式df3 = tmp.pivot(index='DATE', columns='company', values='value')         .rename_axis('', axis=1).reset_index()print("最终填充结果 df3:")print(df3)

4. 注意事项

日期类型一致性： 确保所有涉及日期的列都已转换为Pandas的datetime类型。这是进行日期比较和merge_asof操作的前提。merge_asof的排序要求： merge_asof函数要求其left_on和right_on参数对应的列必须是经过排序的。如果数据未排序，请务必在调用merge_asof之前进行排序，否则结果可能不准确。merge_asof的direction参数： merge_asof有一个direction参数（默认为’backward’），它决定了如何寻找匹配项。’backward’表示查找左键值之前或等于左键值的最大右键值；’forward’表示查找左键值之后或等于左键值的最小右键值；’nearest’表示查找最近的右键值。在本例中，’backward’是合适的，因为它将df2的日期与df1的start date进行匹配。性能考量： 对于非常大的数据集，melt和pivot操作可能会消耗较多内存和计算资源。在处理大规模数据时，应考虑其性能影响，并可能探索其他优化方法，如分块处理或使用更底层的NumPy操作。NaN值的处理： 条件筛选后，不符合条件的值会被替换为NaN。如果需要，可以进一步使用fillna()等方法处理这些NaN值。

5. 总结

通过结合melt、merge_asof和条件筛选，我们提供了一种强大且灵活的方法来根据日期范围条件从一个DataFrame填充另一个DataFrame。这种方法在处理时间序列数据、事件窗口分析以及需要基于动态时间区间进行数据匹配的场景中非常有用。掌握这些Pandas高级操作，能够显著提升数据处理的效率和准确性。

以上就是使用Pandas基于日期范围条件填充DataFrame的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1377443.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Plotly图表生成HTML字符串的正确方法与优化实践

上一篇 2025年12月14日 17:46:49

SharePoint程序化访问：解决AADSTS65001错误与证书认证实践

下一篇 2025年12月14日 17:46:55

好文分享

XML的DOM的DocumentFragment有什么用？

documentfragment通过批量操作dom节点显著提升页面性能。它作为内存中的虚拟容器，允许开发者在不触发重绘和回流的情况下构建或修改节点结构，待所有操作完成后一次性插入文档。相较于逐个添加节点会引发多次渲染，使用documentfragment可减少浏览器的计算压力。其与普通元素节点不同之…

程序猿
2025年12月17日
1000
用户投稿

XPath的string()函数转换规则是什么？

要提取特定元素的文本内容，可使用string()函数。对于给定html片段，提取div全部文本的方法是string(//div[@class=’content’])，结果包含所有后代文本节点；若只想提取p标签内文本而不包括a标签，则使用string-join(//div[@c…

程序猿
2025年12月17日
1000
用户投稿

XSLT的document()函数怎么加载外部XML？

xslt的document()函数用于加载外部xml文件数据。1. 它通过xpath表达式调用，传入uri参数，返回外部xml文档的节点集；2. 典型用法包括整合多源数据、配置与查找表、模块化与重用以及处理大型xml文档；3. 路径解析支持绝对路径和相对路径，但需注意部署环境差异；4. 错误处理需检…

程序猿
2025年12月17日
1000
用户投稿

XML的DOM接口中NodeList怎么遍历？

nodelist的遍历核心是利用length属性和索引访问节点，最稳妥的方式是使用传统for循环；1. nodelist分为“活的”和“死的”两种类型，“活的”会随dom变化实时更新，常见于getelementsbytagname、getelementsbyclassname和childnodes，…

程序猿
2025年12月17日
2000
用户投稿

XSD的substitutionGroup如何实现元素替换？

xsd的substitutiongroup机制通过元素替代实现xml文档结构的多态性，使某个元素能被其“家族”中的其他成员替代，同时保持schema验证有效。具体步骤为：1. 定义头部元素（如vehicle），作为通用接口；2. 定义替代成员元素（如car、motorcycle），它们必须是全局元素…

程序猿
2025年12月17日
1000
用户投稿

XML的SAX解析器如何处理开始标签事件？

sax解析器在开始标签事件中能提供uri、localname、qname及attributes四个关键信息。1. uri表示命名空间uri，用于区分不同命名空间下的同名标签；2. localname是不带命名空间前缀的本地标签名；3. qname是包含命名空间前缀的完整标签名；4. attribut…

程序猿
2025年12月17日
0000
用户投稿

XSLT的key()函数如何建立节点索引？

xslt的key()函数通过预索引机制提升xml节点查找效率。1. 使用xsl:key声明索引，定义name（唯一名称）、match（匹配节点）、use（键值来源）属性；2. 在模板中调用key()函数，传入索引名和查找值，快速获取对应节点集。它解决了xpath//操作符在大型文档中重复遍历导致的性…

程序猿
2025年12月17日
0000
用户投稿

XQuery的validate表达式如何校验文档？

xquery的validate表达式用于根据xml schema校验xml数据是否合规，其核心作用是确保数据结构和内容符合预期。它提供两种验证模式：1. strict模式要求数据完全符合schema定义，任何不匹配都会导致错误；2. lax模式仅验证schema中明确定义的部分，忽略未定义的内容。v…

程序猿
2025年12月17日
1000
用户投稿

RSS的item元素的guid有什么作用？

guid在rss中的核心作用是为每个条目提供唯一标识以实现去重、更新追踪和稳定识别。具体包括：1.去重防漏：聚合器通过记录已处理的guid避免重复显示相同条目；2.内容更新追踪：当内容小幅修改但guid不变时，阅读器能识别为同一内容的更新而非新条目；3.作为永久链接：默认ispermalink=&#…

程序猿
2025年12月17日
1000
用户投稿

XPath的namespace轴在什么情况下使用？

xpath的namespace轴关键在于处理带命名空间的xml/html文档，通过注册前缀与uri映射实现精准定位。1. 命名空间用于避免元素冲突，如book:title与cd:title属不同空间；2. xpath中直接使用前缀会失败，因需通过namespace context明确前缀对应uri；…

程序猿
2025年12月17日
0000
用户投稿

XSLT的apply-templates选择节点有哪些方式？

xslt中apply-templates选择节点的方式主要有两种：1.通过select属性指定xpath表达式精准选择节点；2.不指定select属性时默认处理当前上下文的所有子节点。此外，结合mode属性可实现对相同节点的不同处理逻辑。使用select属性时，xpath表达式可以是相对路径、绝对路…

程序猿
2025年12月17日
1000
用户投稿

XSLT的mode属性在模板中起什么作用？

xslt中的mode属性通过为模板提供“模式”概念，使同一xml节点在不同模式下可被不同模板处理。1. 定义模板时，在xsl:template上使用mode属性，如mode=”summary-view”或mode=”detail-view”，以区分不同…

程序猿
2025年12月17日
0000
用户投稿

XML的DOM的Attr接口有哪些属性？

xml dom中的attr接口暴露了name、value、specified和ownerelement四个核心属性。name是只读字符串，表示属性名称；value是可读写字符串，用于获取或设置属性值；specified是布尔值，指示属性是否在文档中明确指定；ownerelement指向拥有该attr…

程序猿
2025年12月17日
0000
用户投稿

XLink的show属性有哪些可选值？

xlink的show属性用于定义链接资源的展示方式，主要有五个值：new、replace、embed、other和none。new表示在新窗口打开；replace表示替换当前内容；embed表示将资源嵌入当前文档；other由应用程序自定义行为；none则不预设任何显示行为。相比html的targe…

程序猿
2025年12月17日
0000
用户投稿

XSL-FO的block-container如何定位内容？

block-container在xsl-fo中用于创建独立布局上下文以实现高级定位和局部排版控制。1. 它为内部元素提供新的坐标系，支持绝对定位，允许子元素相对于容器进行left、top等属性的精确定位；2. block-container可设定width、height、边距等属性，与主文档流分离，…

程序猿
2025年12月17日
0000
用户投稿

XSD的restriction元素如何限制简单类型？

xsd中restriction元素用于对简单类型进行约束，通过刻面限制值域。常用刻面包括：1.length、minlength、maxlength限制长度；2.pattern使用正则定义格式；3.enumeration限定可选值；4.mininclusive/maxinclusive等定义数值范围；…

程序猿
2025年12月17日
0000
用户投稿

XSLT的number元素如何格式化序号？

xslt的number元素通过format、level、count等核心属性实现灵活的序号控制。1. format定义输出格式，如1、a、a、i、i及混合格式；2. level指定计数级别，包括single（默认）、multiple（多级编号）和any（全局连续计数）；3. count设定要计数的节…

程序猿
2025年12月17日
0000
用户投稿

XSD的key和keyref如何定义数据关系？

xsd中key和keyref机制用于定义xml文档内部数据的唯一性和引用完整性，其核心在于通过唯一键（key）和引用键（keyref）确保数据一致性。1. key用于定义唯一标识符，由selector指定目标元素集，field指定构成唯一值的属性或子元素，确保所选范围内该值全局唯一；2. keyre…

程序猿
2025年12月17日
0000
用户投稿

SOAP消息的Envelope元素有什么作用？

soap消息的envelope元素是整个消息的根元素，它定义了消息的结构、协议版本和扩展性。1.envelope必须包含body元素，header为可选；2.通过xmlns:soap属性指定soap版本，如soap 1.1或soap 1.2；3.header用于传递元数据，如安全信息、路由信息等，并…

程序猿
2025年12月17日
0000
用户投稿

XML如何定义别名机制？

xml没有官方的“别名机制”，但通过命名空间、实体引用和schema的ref属性实现了类似功能。1.命名空间通过前缀绑定uri，避免元素名冲突，如soap:envelope中的soap是uri的别名；2.实体引用通过定义通用或参数实体实现内容复用，如用&copyright;代替固定文本；3.…

程序猿
2025年12月17日
1000