Pandas DataFrame日期字符串处理：精确截取至年份并标准化日期格式

程序猿 • 2025年12月14日 15:31:30 • 用户投稿 • 阅读 1

本文旨在提供使用Pandas库处理DataFrame中日期字符串的专业教程。针对日期列中包含多余信息的情况，我们将详细介绍如何利用正则表达式结合str.replace和str.extract方法，高效地清理和标准化日期字符串，确保仅保留至年份的完整日期信息。教程将包含详细的代码示例和正则表达式解析，帮助读者掌握精确的数据清洗技巧。

在数据分析和预处理过程中，我们经常会遇到日期字段包含非标准格式或额外信息的情况。例如，日期字符串可能包含时间戳、括号内的注释或其他无关字符，而我们通常只需要保留日期部分，精确到年份。本教程将展示如何利用pandas的字符串方法和正则表达式，实现对dataframe中日期列的精确清洗。

初始数据结构示例

假设我们有一个Pandas DataFrame，其中包含一个名为date的列，其内容如下：

import pandas as pddata = {    'id': [1, 2, 3],    'date': [        '21 July 2023 (abcd)',        '22 July 2023 00:00:01',        '23 July 2023 -abcda'    ]}df = pd.DataFrame(data)print("原始DataFrame:")print(df)

我们的目标是将date列清洗为以下格式：

   id          date0   1  21 July 20231   2  22 July 20232   3  23 July 2023

接下来，我们将介绍两种主要的方法来实现这一目标。

方法一：使用 str.replace 结合正向后行断言

这种方法利用正则表达式的正向后行断言 (Positive Lookbehind) 来定位年份，然后移除其后的所有内容。

原理说明

str.replace 方法允许我们使用正则表达式来查找并替换字符串中的模式。通过在正则表达式中引入正向后行断言，我们可以指定一个模式必须紧跟在另一个模式之后，但不会将前一个模式包含在匹配结果中。

正则表达式解析

r'(?

r”: 表示这是一个原始字符串，避免反斜杠的转义问题。(?b: 单词边界，确保匹配的是独立的四位数字，而不是其他数字串的一部分。d{4}: 匹配任意四位数字，代表年份。(?.*: 匹配零个或多个任意字符（除了换行符）。这意味着它会匹配从年份之后开始的所有内容。

我们将匹配到的.*部分替换为空字符串”，从而达到移除年份之后所有内容的目的。

代码示例

# 方法一：使用 str.replace 结合正向后行断言df_method1 = df.copy()df_method1['date'] = df_method1['date'].str.replace(r'(?<=bd{4}b).*', '', regex=True)print("n方法一结果 (str.replace):")print(df_method1)

方法二：使用 str.extract 进行模式匹配提取

这种方法直接定义我们想要保留的日期模式，然后使用 str.extract 将其从原始字符串中提取出来。

原理说明

str.extract 方法用于从字符串中提取与正则表达式模式匹配的子串。如果正则表达式包含捕获组（即用括号()括起来的部分），str.extract 将返回这些捕获组的内容。

正则表达式解析

r'(d+ [a-zA-Z]+ d{4})’

(): 定义一个捕获组，我们希望提取的内容将由这个组捕获。d+: 匹配一个或多个数字，通常对应日期中的“日”。` `: 匹配一个空格。[a-zA-Z]+: 匹配一个或多个字母，通常对应日期中的“月”（如 “July”）。` `: 匹配一个空格。d{4}: 匹配恰好四位数字，对应日期中的“年”。

这个正则表达式精确地匹配了“日月年”的格式，并将其作为捕获组提取出来。

代码示例

# 方法二：使用 str.extract 进行模式匹配提取df_method2 = df.copy()df_method2['date'] = df_method2['date'].str.extract(r'(d+ [a-zA-Z]+ d{4})', expand=False)print("n方法二结果 (str.extract):")print(df_method2)

注意：expand=False 参数确保返回的是一个 Series 而不是 DataFrame，这在提取单个捕获组时是常见的做法。

注意事项与选择建议

特定年份与任意四位年份的区别

在方法一的正则表达式 (?任意四位数字作为年份。如果你的需求是只在特定年份（例如，仅针对“2023”）之后进行截断，你可以将 d{4} 替换为具体的年份，如 (?方法二的 d{4} 同样匹配任意四位数字年份。如果你需要匹配特定年份，可以直接将 d{4} 替换为 2023。

方法选择

str.replace 结合正向后行断言：当你的目标是“移除某个模式之后的所有内容”时，此方法非常直观和高效。它不关心年份之前的日期格式，只要能识别年份即可。str.extract 进行模式匹配提取：当你知道你想要提取的确切模式（例如“日月年”）时，此方法更为精确。它直接提取符合模式的部分，对于格式相对固定的日期字符串非常有效。如果原始字符串中可能存在多个看起来像日期的模式，str.extract 会提取第一个匹配项。

效率考量

Pandas的str.replace和str.extract通常都经过优化，对于大多数数据集都能提供良好的性能。原始问题中提到的一种变体 df[‘date’].str.split(r'(?

总结

本教程详细介绍了两种在Pandas DataFrame中清理日期字符串的有效方法，旨在保留日期至年份并移除所有后续冗余信息。通过str.replace结合正向后行断言，我们可以灵活地移除年份后的内容；而str.extract则允许我们精确地提取符合特定日期模式的字符串。理解并掌握这些正则表达式技巧，将大大提升你在数据预处理阶段的效率和准确性。选择哪种方法取决于你的具体需求和原始数据的特点。

以上就是Pandas DataFrame日期字符串处理：精确截取至年份并标准化日期格式的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1376001.html

区别数据清洗正则表达式

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Tkinter主题性能优化：解决UI卡顿问题

上一篇 2025年12月14日 15:31:22

动态安装和使用PyPi包：在PyInstaller打包的软件中实现

下一篇 2025年12月14日 15:31:38

用户投稿

composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

require用于声明项目运行必需的依赖，如框架、数据库组件和第三方SDK，这些包会随项目部署到生产环境；2. require-dev用于声明仅在开发和测试阶段需要的工具，如PHPUnit、PHPStan、Faker等，不会默认部署到生产环境；3. 安装时composer install根据环境决定…

程序猿
2026年5月10日
9000
用户投稿

php常量怎么用_PHP常量（define/const）定义与使用方法

PHP中可通过define函数和const关键字定义常量，用于存储不可变值。define适用于全局作用域，支持动态名称和条件定义，如define(‘SITE_NAME’, ‘MyWebsite’)；const在编译时生效，语法简洁但限制多，只能在类或全…

程序猿
2026年5月10日
0000
用户投稿

Go语言接口与切片：如何识别和操作[]interface{}

本文将深入探讨Go语言中如何识别和操作`[]interface{}`类型的切片。我们将介绍类型断言（Type Assertion）的关键作用，并通过`switch`语句演示如何安全地检测`[]interface{}`类型，并进而遍历其内部元素。文章旨在提供清晰的示例代码和专业指导，帮助开发者有效地处…

程序猿
2026年5月10日
0000
用户投稿

c++中头文件和源文件的区别_c++头文件与源文件作用对比

头文件声明接口，源文件实现逻辑。头文件含类、函数声明及宏定义，通过#include被多文件共享，用include守卫防重；源文件实现具体功能，编译为目标文件后由链接器合并。声明与实现分离提升模块化与编译效率，模板和内联函数因需编译时可见故常置于头文件，命名空间避免符号冲突，整体结构使项目更清晰易维护…

程序猿
2026年5月10日
0000
用户投稿

Python正则表达式：处理数字不同情况的替换

本文旨在帮助读者理解和解决在使用Python正则表达式进行数字替换时遇到的问题。通过具体示例，详细解释了如何正确匹配和替换不同格式的数字，避免常见的匹配陷阱，并提供可直接使用的代码示例。掌握这些技巧，能有效提高处理文本数据的效率和准确性。在使用Python的re模块进行字符串替换时，正则表达式的编…

程序猿
2026年5月10日
0000
用户投稿

Go语言中复制数组的几种方法详解

本文介绍了在 Go 语言中复制数组和切片的几种方法，重点讲解了内置的 `copy` 函数的使用方式，以及在多维切片场景下深拷贝与浅拷贝的区别，并提供了相应的代码示例。通过本文，你将掌握在不同场景下选择合适的复制方法，避免潜在的陷阱。在 Go 语言中，复制数组和切片是一个常见的操作。根据不同的需求，…

程序猿
2026年5月10日
0000
用户投稿

解决PHP foreach循环中变量“继承”问题：理解与避免意外数据泄露

本文探讨PHP foreach循环中一个常见的陷阱：当循环内部的数组或变量未被显式初始化时，其值可能会“继承”自上一次循环迭代，导致意外的数据泄露和逻辑错误。文章将深入分析这一现象的根源，并通过示例代码展示如何通过在每次迭代开始时正确初始化变量来解决此问题，确保代码行为的预期一致性。引言：fore…

程序猿
2026年5月10日
1000
用户投稿

Pandas：基于条件和 Groupby 替换列中的特定字符

本文介绍了如何使用 Pandas 库，结合 groupby 函数和字符串操作，根据特定条件替换 DataFrame 列中的字符。通过累积计数和字典映射，能够灵活地修改列中的特定部分，并根据替换值调整相关文本，实现数据清洗和转换的目的。在数据分析和处理中，经常需要根据特定条件修改 DataFrame…

程序猿
2026年5月10日
0000
用户投稿

使用JavaScript正则表达式验证DFA字符串

本文旨在探讨如何高效地使用javascript的内置正则表达式功能来验证符合特定确定性有限自动机（dfa）规则的字符串。我们将对比手动构建状态转换表的复杂性与利用正则表达式的简洁与强大，并通过具体代码示例展示如何将dfa的正则表达式直接应用于字符串验证，从而实现更可靠、易维护的解决方案。确定性有限…

程序猿
2026年5月10日
0000
用户投稿

高效处理Selenium抓取中的特殊HTML字符：JavaScript注入法

本教程旨在解决使用Selenium的.text方法抓取网页内容时，因保留不可见特殊HTML字符（如连字符、非断行空格等）导致的数据清洗难题。文章核心内容是介绍如何通过driver.execute_script方法注入JavaScript代码，在提取文本之前直接从DOM中移除这些包含特殊字符的HTML…

程序猿
2026年5月10日
0000
用户投稿

PHP中验证Base64编码字符串有效性的实用指南

本教程将详细介绍在PHP中如何有效验证Base64编码字符串的有效性，特别是针对常见的数据URI格式（如data:image/jpeg;base64,…）。我们将探讨利用base64_decode和base64_encode函数进行往返验证的核心技术，并提供实用的代码示例及重要注意事项，…

程序猿
2026年5月10日
0000
用户投稿

Go语言中sync.WaitGroup的深度解析与实践

sync.WaitGroup是Go语言中用于并发编程的重要同步原语，它允许主协程等待一组子协程执行完毕。本文将深入探讨WaitGroup的工作原理、典型使用模式及其与sync.Mutex等其他同步机制的区别，并通过实际代码示例，帮助读者掌握其在并发控制中的应用，避免常见的误区，确保并发程序的正确性和…

程序猿
2026年5月10日
0000
用户投稿

HTML文档脚本怎么加载_HTML加载JavaScript教程

脚本应优先通过defer或async异步加载以避免阻塞渲染；将脚本放在body底部可防阻塞，但推荐使用defer确保DOM解析完成后再执行；async适用于独立脚本，defer用于依赖DOM或需顺序执行的脚本；优化方式包括代码分割、懒加载、CDN加速和浏览器缓存；加载失败时应重试、降级处理并监控错误…

程序猿
2026年5月10日
0000
用户投稿

C++ 如何替换字符串中的部分内容_C++ 替换字符串内容的常用技巧

答案：C++中常用字符串替换方法包括使用find与replace循环替换所有匹配项，示例代码展示如何通过while循环查找并更新位置实现全局替换；单次替换只需查找第一个匹配并执行一次replace操作；若需忽略大小写，须自定义查找函数如findIgnoreCase进行字符转小写比较；对于模式匹配类替…

程序猿
2026年5月10日
1000
用户投稿

Python怎么实现一个上下文管理器_Python上下文管理器协议实现

自定义Python上下文管理器需实现__enter__和__exit__方法，前者在进入with块时获取资源并返回对象，后者在退出时释放资源并可处理异常；通过类或contextlib.contextmanager装饰生成器函数均可创建；文件操作中with open()自动关闭文件是典型应用；__ex…

程序猿
2026年5月10日
0000
用户投稿

JavaScript解释器_javascript代码执行

JavaScript通过引擎解析执行，先语法分析生成AST，再编译为字节码或机器码，最后执行；执行时创建上下文并入栈，同步代码直接运行，异步任务由API处理后回调入队，事件循环在调用栈空时将回调推入执行；此机制解释了变量提升、暂时性死区及宏任务与微任务执行顺序差异。 JavaScript代码的执行依…

程序猿
2026年5月10日
0000
CSS的display属性有哪些值？inline和block有什么区别？

css的display属性通过定义元素的显示方式来控制网页布局。1.block元素独占一行，可设置宽高，默认如div、p等；2.inline元素不独占行，宽高由内容决定，如span、a；3.inline-block兼具block和inline特性，可并排显示且能设尺寸；4.none隐藏元素且不占空间…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

Nginx 子目录应用URI重写与参数传递教程

本教程详细阐述了如何在Nginx中为PHP应用实现子目录URI重写，特别是如何从请求URI中剥离子目录路径并将其余部分作为参数传递给主入口文件。通过try_files和rewrite指令的组合，本教程提供了一种高效且准确的解决方案，以替代Apache .htaccess的RewriteRule功能，…

程序猿
2026年5月10日
0000
用户投稿

C++怎么使用静态库和动态库_C++链接静态库与动态库的方法与区别

静态库在编译时链接，生成独立可执行文件；动态库运行时加载，节省内存。1. 静态库用ar打包.o文件为.a，编译时通过-L和-l链接；2. 动态库需-fPIC编译生成.so，运行前配置LD_LIBRARY_PATH或系统路径；3. 静态库体积大但部署方便，动态库共享内存利于更新。在C++项目开发中，…

程序猿
2026年5月10日
0000
用户投稿

python如何将列表转换为字符串_python列表与字符串相互转换技巧

将列表转换为字符串需用join()方法，确保元素均为字符串类型；含非字符串元素时应先用列表推导式结合str()转换。在Python中，将列表转换为字符串最常见且高效的方式是使用字符串的 join() 方法；而将字符串转换为列表，则主要依赖于字符串的 split() 方法，或者针对特定需求使用 li…

程序猿
2026年5月10日
2000