Pandas DataFrame日期字符串清洗：精确截取至年份的实用技巧

程序猿 • 2025年12月14日 15:32:58 • 用户投稿 • 阅读 0

本教程介绍如何使用Pandas高效清洗DataFrame中的日期字符串，目标是保留“日月年”格式并移除年份后的所有多余信息。我们将探讨利用正则表达式配合str.replace进行替换和str.extract进行精确提取的两种主要方法，确保数据格式的标准化。

在数据分析和处理中，日期数据的格式不一致是一个常见问题。例如，一个日期列可能包含“21 july 2023 (abcd)”、“22 july 2023 00:00:01”或“23 july 2023 -abcda”等多种带有额外信息的字符串。我们的目标是将这些日期字符串统一清洗为标准的“日月年”格式，即保留年份信息，并删除年份之后的所有字符。

初始数据准备

首先，我们创建一个示例Pandas DataFrame来模拟这种常见的数据场景：

import pandas as pd# 创建示例 DataFramedata = {    'id': [1, 2, 3],    'date': [        '21 July 2023 (abcd)',        '22 July 2023 00:00:01',        '23 July 2023 -abcda',        '01 Jan 2024 (test)' # 增加一个不同年份的例子    ]}df = pd.DataFrame(data)print("原始 DataFrame:")print(df)

输出的原始 DataFrame 如下：

原始 DataFrame:   id                 date0   1  21 July 2023 (abcd)1   2  22 July 2023 00:00:012   3  23 July 2023 -abcda3   4   01 Jan 2024 (test)

方法一：使用 str.replace 结合正则表达式进行替换

pandas.Series.str.replace 方法允许我们使用正则表达式来查找并替换字符串中的模式。通过巧妙地构造正则表达式，我们可以定位到年份之后的所有字符并将其替换为空字符串，从而达到清洗的目的。

原理分析

我们使用的正则表达式是 r'(?

b: 这是一个单词边界锚点，确保 d{4} 匹配的是一个独立的四位数，而不是其他数字串的一部分。d{4}: 匹配任意连续的四个数字，这通常代表年份。(?.*: 匹配任意字符（除了换行符）零次或多次。

结合起来，(?

示例代码

# 方法一：使用 str.replace 结合正则表达式df_replace = df.copy() # 复制 DataFrame 以便比较df_replace['date'] = df_replace['date'].str.replace(r'(?<=bd{4}b).*', '', regex=True)print("n使用 str.replace 清洗后的 DataFrame:")print(df_replace)

输出结果：

使用 str.replace 清洗后的 DataFrame:   id          date0   1  21 July 20231   2  22 July 20232   3  23 July 20233   4   01 Jan 2024

方法二：使用 str.extract 结合正则表达式进行提取

pandas.Series.str.extract 方法用于从字符串中提取符合特定正则表达式模式的子串。如果正则表达式中包含捕获组（即用括号 () 包裹的部分），str.extract 将返回这些捕获组的内容。

原理分析

我们使用的正则表达式是 r'(d+ [a-zA-Z]+ d{4})’。

(d+ [a-zA-Z]+ d{4}): 这是一个捕获组，它定义了我们希望提取的日期格式。d+: 匹配一个或多个数字，代表日期中的“日”。` `: 匹配一个空格。[a-zA-Z]+: 匹配一个或多个英文字母，代表日期中的“月”。` `: 匹配一个空格。d{4}: 匹配四个数字，代表日期中的“年”。

这个正则表达式直接描述了我们期望的“日月年”格式。str.extract 会找到并返回与这个捕获组匹配的子串。

示例代码

# 方法二：使用 str.extract 结合正则表达式df_extract = df.copy() # 复制 DataFrame 以便比较df_extract['date'] = df_extract['date'].str.extract(r'(d+ [a-zA-Z]+ d{4})', expand=False)print("n使用 str.extract 清洗后的 DataFrame:")print(df_extract)

输出结果：

使用 str.extract 清洗后的 DataFrame:   id          date0   1  21 July 20231   2  22 July 20233   3  23 July 20234   4   01 Jan 2024

注意： expand=False 参数确保 str.extract 返回一个 Series 而不是 DataFrame，这使得我们可以直接赋值给原列。

其他考虑与注意事项

年份的灵活性: 上述两种方法都使用了 d{4} 来匹配任意四位数字的年份，这使得它们能够处理不同年份的数据，而不仅仅是固定的“2023”。如果你的需求是只针对某个特定年份（例如，只在“2023”之后进行截断），你可以将 d{4} 替换为具体的年份，例如 2023。

str.replace 示例：df[‘date’].str.replace(r'(?str.extract 示例：df[‘date’].str.extract(r'(d+ [a-zA-Z]+ 2023)’, expand=False)

效率考量:

str.replace 和 str.extract 通常在一次操作中完成任务，对于大型数据集而言，它们的效率通常较高。避免使用多步 str 操作链，例如 df[‘date’].str.split(r'(?

数据类型转换: 清洗后的日期列仍然是 object（字符串）类型。为了进行更高级的日期时间操作（如排序、计算时间差、按时间维度聚合等），强烈建议将其转换为 Pandas 的 datetime 类型：

df_cleaned = df_replace.copy() # 或 df_extractdf_cleaned['date'] = pd.to_datetime(df_cleaned['date'], format='%d %B %Y')print("n转换为 datetime 类型后的 DataFrame:")print(df_cleaned)print("n'date' 列的数据类型:", df_cleaned['date'].dtype)

输出结果：

转换为 datetime 类型后的 DataFrame:   id       date0   1 2023-07-211   2 2023-07-222   3 2023-07-233   4 2024-01-01'date' 列的数据类型: datetime64[ns]

注意： format=’%d %B %Y’ 参数非常重要，它告诉 pd.to_datetime 函数如何解析日期字符串（%d 代表日，%B 代表完整的月份名称，%Y 代表四位年份）。如果你的月份是缩写（如 “Jul”），则应使用 %b。

总结

本文介绍了两种在Pandas DataFrame中清洗日期字符串的有效方法，旨在保留“日月年”格式并移除年份后的冗余信息。str.replace 结合正向后瞻断言的正则表达式适用于删除特定模式后的内容，而 str.extract 则通过捕获组直接提取所需模式。在实际应用中，选择哪种方法取决于你的具体需求和个人偏好。无论选择哪种，最终都建议将清洗后的字符串转换为 datetime 类型，以便进行后续的日期时间分析。掌握这些技巧将大大提高你在数据预处理阶段的效率和准确性。

以上就是Pandas DataFrame日期字符串清洗：精确截取至年份的实用技巧的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1376025.html

常见问题正则表达式

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

解决 Jupyter Notebook WebSocket 连接关闭问题

上一篇 2025年12月14日 15:32:51

优化 Python SysLogHandler：实现远程日志发送超时机制

下一篇 2025年12月14日 15:33:03

用户投稿

JavaScript计算器开发：解决数值显示与初始化问题

本教程深入探讨了使用JavaScript构建计算器时常见的数值显示异常问题，特别是由于类属性未初始化导致的`Cannot read properties of undefined`错误。我们将详细分析问题根源，并通过在构造函数中调用初始化方法来解决该问题，同时优化显示逻辑，确保计算器功能稳定且界面显…

程序猿
2026年5月10日
0000
用户投稿

使用 Ajax 和 FormData 实现文件上传及文本数据提交的完整教程

本文旨在解决在使用 Ajax 和 FormData 进行文件上传时，遇到的 $_POST 和 $_FILES 为空的问题。通过详细的代码示例和解释，我们将展示如何正确地构建 FormData 对象，并通过 Ajax 将文件和文本数据发送到服务器端，同时避免常见的错误配置，确保数据能够成功地被 PHP…

程序猿
2026年5月10日
0000
用户投稿

Python正则表达式：处理数字不同情况的替换

本文旨在帮助读者理解和解决在使用Python正则表达式进行数字替换时遇到的问题。通过具体示例，详细解释了如何正确匹配和替换不同格式的数字，避免常见的匹配陷阱，并提供可直接使用的代码示例。掌握这些技巧，能有效提高处理文本数据的效率和准确性。在使用Python的re模块进行字符串替换时，正则表达式的编…

程序猿
2026年5月10日
0000
用户投稿

C++如何编译和链接_C++从源码到可执行文件的过程解析

c++kquote>预处理展开宏和头文件，编译生成汇编代码，汇编转为机器码，链接合并目标文件与库生成可执行程序。当你写完一段C++代码，比如一个简单的hello world程序，最终能运行起来，背后其实经历了一系列步骤：预处理、编译、汇编和链接。这个过程将人类可读的源码转换成机器可以执行的程…

程序猿
2026年5月10日
0000
用户投稿

javascript生命周期钩子是什么_组件有哪些关键阶段？

JavaScript原生无生命周期钩子，这是Vue、React等框架为组件设计的机制；Vue按创建、挂载、更新、卸载四阶段提供对应钩子，React类组件有明确生命周期方法，函数组件则通过useEffect模拟，其核心价值在于精准控制执行时机以避免DOM操作错误和内存泄漏。 JavaScript 本身…

程序猿
2026年5月10日
5000
用户投稿

解决Python脚本中相对路径文件找不到的常见问题与策略

本文旨在解决python脚本中因相对路径处理不当导致的文件找不到错误，尤其是在项目迁移后。文章将深入探讨python中相对路径的工作原理、当前工作目录（cwd）的影响，并提供使用`os.getcwd()`诊断问题以及利用`os.path.dirname(__file__)`结合`os.path.jo…

程序猿
2026年5月10日
0000
用户投稿

JavaScript中实时获取表单输入值：避免常见陷阱

本教程深入探讨在javascript中如何正确地实时获取html表单输入框的值。许多开发者在初次尝试时可能遇到`alert`函数无法显示最新输入内容的问题，这通常是由于变量作用域和代码执行时机不当所致。文章将通过对比错误与正确的代码示例，详细解释其背后的原理，并提供最佳实践，确保您能够准确捕获用户在…

程序猿
2026年5月10日
1000
用户投稿

使用JavaScript正则表达式验证DFA字符串

本文旨在探讨如何高效地使用javascript的内置正则表达式功能来验证符合特定确定性有限自动机（dfa）规则的字符串。我们将对比手动构建状态转换表的复杂性与利用正则表达式的简洁与强大，并通过具体代码示例展示如何将dfa的正则表达式直接应用于字符串验证，从而实现更可靠、易维护的解决方案。确定性有限…

程序猿
2026年5月10日
0000
用户投稿

高效处理Selenium抓取中的特殊HTML字符：JavaScript注入法

本教程旨在解决使用Selenium的.text方法抓取网页内容时，因保留不可见特殊HTML字符（如连字符、非断行空格等）导致的数据清洗难题。文章核心内容是介绍如何通过driver.execute_script方法注入JavaScript代码，在提取文本之前直接从DOM中移除这些包含特殊字符的HTML…

程序猿
2026年5月10日
0000
用户投稿

PHP中验证Base64编码字符串有效性的实用指南

本教程将详细介绍在PHP中如何有效验证Base64编码字符串的有效性，特别是针对常见的数据URI格式（如data:image/jpeg;base64,…）。我们将探讨利用base64_decode和base64_encode函数进行往返验证的核心技术，并提供实用的代码示例及重要注意事项，…

程序猿
2026年5月10日
0000
用户投稿

C++ 如何替换字符串中的部分内容_C++ 替换字符串内容的常用技巧

答案：C++中常用字符串替换方法包括使用find与replace循环替换所有匹配项，示例代码展示如何通过while循环查找并更新位置实现全局替换；单次替换只需查找第一个匹配并执行一次replace操作；若需忽略大小写，须自定义查找函数如findIgnoreCase进行字符转小写比较；对于模式匹配类替…

程序猿
2026年5月10日
1000
用户投稿

Nginx 子目录应用URI重写与参数传递教程

本教程详细阐述了如何在Nginx中为PHP应用实现子目录URI重写，特别是如何从请求URI中剥离子目录路径并将其余部分作为参数传递给主入口文件。通过try_files和rewrite指令的组合，本教程提供了一种高效且准确的解决方案，以替代Apache .htaccess的RewriteRule功能，…

程序猿
2026年5月10日
0000
用户投稿

python如何将列表转换为字符串_python列表与字符串相互转换技巧

将列表转换为字符串需用join()方法，确保元素均为字符串类型；含非字符串元素时应先用列表推导式结合str()转换。在Python中，将列表转换为字符串最常见且高效的方式是使用字符串的 join() 方法；而将字符串转换为列表，则主要依赖于字符串的 split() 方法，或者针对特定需求使用 li…

程序猿
2026年5月10日
2000
用户投稿

Flet应用中正确显示AlertDialog对话框的指南

本文旨在指导flet开发者如何正确显示`alertdialog`对话框。针对在`usercontrol`中直接设置`dlg_modal.open = true`和调用`self.update()`无法显示对话框的常见问题，文章详细阐述了其原因，并提供了使用`e.page.show_dialog_as…

程序猿
2026年5月10日
5000
用户投稿

C++怎么理解虚继承和虚基类_C++解决菱形继承问题的方法

菱形继承指一个类通过多条路径继承同一基类，导致基类成员重复；例如D继承B和C，而B、C均继承A，使D包含两份A的成员，引发访问歧义。使用虚继承可解决此问题：将B和C对A的继承声明为virtual public，确保D中仅保留一份A的实例。此时，虚基类A由最派生类D直接初始化，且仅调用一次构造函数，避…

程序猿
2026年5月10日
3000
用户投稿

在Python Flask中实现在线图片URL到Blurhash编码

本教程详细介绍了如何在python flask应用中，将在线图片url转换为blurhash键。针对官方文档主要侧重本地文件处理的局限，文章通过整合`requests`库下载图片内容和`blurhash-python`库进行编码，提供了完整的解决方案，并包含代码示例、依赖安装、错误处理及在flask…

程序猿
2026年5月10日
0000
用户投稿

深入理解React组件命名规范：解决组件不渲染的常见陷阱

本教程深入探讨react组件命名约定在组件渲染中的关键作用。我们将解释为何自定义组件名必须以大写字母开头（pascalcase），以避免与原生html元素混淆。通过对比错误和正确的代码示例，教程将指导开发者如何遵循这一核心规范，从而解决组件不显示、`is defined but never used…

程序猿
2026年5月10日
0000
用户投稿

为什么PHP调用文件权限设置函数无效_PHP文件权限设置函数无效问题排查与chmod函数教程

chmod调用无效主因是执行用户无权或路径错误。1. 确认PHP进程用户（如www-data）对文件有所有权或写权限，用ls -l和ps aux检查；2. 使用绝对路径并验证文件存在，推荐__DIR__ . ‘/file’配合file_exists()；3. 检查php.in…

程序猿
2026年5月10日
0000
用户投稿

DeAgentAI(AIA)币是什么？值得投资吗？DeAgentAI上线指南、价格预测及路线图介绍

目录 DeAgentAI (AIA) 上市：关键细节和交易时间表关键上市信息DeAgentAI（AIA）价格预测：上市后DeAgentAI (AIA) 是什么：解释DeAgentAI (AIA) 为何脱颖而出？DeAgentAI (AIA) 生态系统：其运作方式认识 DeAgentAI (AIA) …

程序猿
2026年5月10日
5000
用户投稿

HTML文本排版常见问题有哪些_HTML文本排版常见问题如何快速排查与解决

空白符处理不当导致格式丢失，可用标签或CSS的white-space属性解决；2. 段落间距不一致需重置margin并使用CSS Reset；3. 字体异常应检查font-family备选和@font-face加载；4. 文本溢出需设置word-wrap、text-overflow等控制换行与截断。…

程序猿
2026年5月10日
3000