Pandas DataFrame中不规则日期字符串的清洗与标准化

程序猿 • 2025年12月14日 16:08:29 • 用户投稿 • 阅读 0

本文详细介绍了如何在Pandas DataFrame中处理包含特殊字符或不规则格式的日期字符串。通过利用pd.to_datetime函数的exact=False参数进行灵活转换，或结合正则表达式str.extract和str.replace方法精确提取并标准化日期格式，即使面对复杂多变的日期字符串，也能高效地将其清洗为统一的日期对象或标准字符串格式，从而为后续数据分析奠定基础。

在数据分析实践中，我们经常会遇到dataframe中日期列包含非标准格式或额外字符的情况。例如，日期字符串可能混杂着时间、冒号、空格甚至不相关的数字。直接使用简单的字符串分割或替换操作往往无法满足需求，甚至可能导致数据丢失或格式错误。本文将探讨两种专业且高效的方法来解决这类问题：一是利用pandas内置的日期时间转换功能，二是结合正则表达式进行精确的字符串提取和标准化。

初始数据场景

假设我们有一个Pandas DataFrame，其中date列包含以下不规则的日期字符串：

import pandas as pdimport iodata = """id date1  '  : 07/01/2020 23:25'2  ': 07/02/2020'3  ' 07/03/2020 23:25 1'4  '07/04/2020'5  '23:50 07/05/2020'6  '07 06 2023'7  '00:00 07 07 2023'"""df = pd.read_csv(io.StringIO(data), sep=r's{2,}', engine='python')df['date'] = df['date'].str.strip("'") # 移除单引号print("原始DataFrame:")print(df)

输出：

原始DataFrame:   id                  date0   1    : 07/01/2020 23:251   2          : 07/02/20202   3    07/03/2020 23:25 13   4            07/04/20204   5      23:50 07/05/20205   6            07 06 20236   7      00:00 07 07 2023

我们的目标是从date列中提取出MM/DD/YYYY或DD/MM/YYYY格式的日期，并将其标准化。

方法一：利用 pd.to_datetime 的灵活解析能力

如果最终目的是将字符串转换为Pandas的datetime对象，pd.to_datetime函数提供了一个非常强大的参数exact=False。当exact=False时，pd.to_datetime会尝试从字符串中解析出日期时间信息，即使字符串中包含额外的字符。结合format参数指定预期的日期格式，可以有效处理不规则数据。

# 假设日期格式为 DD/MM/YYYYdf['parsed_datetime'] = pd.to_datetime(df['date'], format='%d/%m/%Y', exact=False)print("n使用 pd.to_datetime(exact=False) 转换后的DataFrame:")print(df)

输出：

使用 pd.to_datetime(exact=False) 转换后的DataFrame:   id                  date parsed_datetime0   1    : 07/01/2020 23:25      2020-01-071   2          : 07/02/2020      2020-02-072   3    07/03/2020 23:25 1      2020-03-074   4            07/04/2020      2020-04-075   5      23:50 07/05/2020      2020-05-076   6            07 06 2023      2023-06-077   7      00:00 07 07 2023      2023-07-07

注意事项：

format参数仍然很重要，它告诉Pandas日期部分的预期顺序（例如，%d/%m/%Y表示日月年）。exact=False使得解析器在遇到不符合format的额外字符时不会立即报错，而是尝试跳过它们并找到匹配的日期部分。这种方法直接生成datetime对象，非常适合需要进行日期时间计算和比较的场景。如果只需要字符串形式的日期，可以后续通过dt.strftime(‘%d/%m/%Y’)转换回来。

方法二：使用正则表达式 str.extract 进行精确提取和标准化

如果需要将日期提取为特定的字符串格式，或者pd.to_datetime无法满足所有复杂情况，正则表达式结合str.extract是更灵活的选择。

2.1 提取标准斜杠分隔的日期

首先，我们定义一个正则表达式来匹配DD/MM/YYYY这种精确格式的日期。

# 匹配 DD/MM/YYYY 格式的日期# (d{2}/d{2}/d{4})：捕获两数字/两数字/四数字的模式df['extracted_date_slash'] = df['date'].str.extract(r'(d{2}/d{2}/d{4})')print("n使用 str.extract 提取斜杠分隔日期后的DataFrame:")print(df)

输出：

使用 str.extract 提取斜杠分隔日期后的DataFrame:   id                  date parsed_datetime extracted_date_slash0   1    : 07/01/2020 23:25      2020-01-07           07/01/20201   2          : 07/02/2020      2020-02-07           07/02/20202   3    07/03/2020 23:25 1      2020-03-07           07/03/20203   4            07/04/2020      2020-04-07           07/04/20204   5      23:50 07/05/2020      2020-05-07           07/05/20205   6            07 06 2023      2023-06-07                  NaN6   7      00:00 07 07 2023      2023-07-07                  NaN

可以看到，对于第5、6行中以空格分隔日期的条目，此正则表达式无法匹配，导致结果为NaN。

2.2 处理多种分隔符并标准化

为了处理日期中可能出现的多种分隔符（例如斜杠/或空格`），我们可以修改正则表达式，并结合str.replace`进行标准化。

# 匹配 DD/MM/YYYY 或 DD MM YYYY 格式的日期# (d{2}[ /]d{2}[ /]d{4})：捕获两数字后跟斜杠或空格，重复两次，再跟四数字df['cleaned_date_str'] = (df['date']                          .str.extract(r'(d{2}[ /]d{2}[ /]d{4})', expand=False)                          .str.replace(' ', '/') # 将所有空格分隔符替换为斜杠                         )print("n使用 str.extract 结合 str.replace 提取并标准化日期后的DataFrame:")print(df)

输出：

使用 str.extract 结合 str.replace 提取并标准化日期后的DataFrame:   id                  date parsed_datetime extracted_date_slash cleaned_date_str0   1    : 07/01/2020 23:25      2020-01-07           07/01/2020       07/01/20201   2          : 07/02/2020      2020-02-07           07/02/2020       07/02/20202   3    07/03/2020 23:25 1      2020-03-07           07/03/2020       07/03/20203   4            07/04/2020      2020-04-07           07/04/2020       07/04/20204   5      23:50 07/05/2020      2020-05-07           07/05/2020       07/05/20205   6            07 06 2023      2023-06-07                  NaN       07/06/20236   7      00:00 07 07 2023      2023-07-07                  NaN       07/07/2023

现在，cleaned_date_str列成功提取并标准化了所有日期的字符串表示，包括原始数据中用空格分隔的日期。

注意事项：

expand=False参数确保str.extract返回一个Series而不是DataFrame，方便后续链式操作。正则表达式中的[ /]表示匹配一个空格或一个斜杠。str.replace(‘ ‘, ‘/’)用于将所有匹配到的空格分隔符统一替换为斜杠，实现日期字符串的标准化。

总结与最佳实践

在处理Pandas DataFrame中不规则的日期字符串时，选择合适的方法取决于你的最终需求：

如果目标是获取datetime对象进行日期时间计算和分析：优先考虑使用pd.to_datetime配合format和exact=False。这种方法通常更简洁，且能直接提供Pandas强大的日期时间功能。如果目标是提取并标准化日期字符串，或者遇到pd.to_datetime难以处理的极端复杂模式：正则表达式str.extract是你的利器。通过精细设计的正则表达式，你可以精确地捕获所需信息，并结合str.replace等方法进行后续的字符串清理和标准化。

通用建议：

明确日期格式：在应用任何方法之前，尽量了解数据中可能存在的日期格式变体。错误处理：对于pd.to_datetime，可以添加errors=’coerce’参数，将无法解析的值转换为NaT（Not a Time），而不是抛出错误。逐步测试：对于复杂的正则表达式，建议在少量数据上进行测试，逐步完善，确保其准确性。

通过掌握上述方法，你将能够高效、准确地清洗和标准化Pandas DataFrame中的日期数据，为后续的数据分析工作打下坚实的基础。

以上就是Pandas DataFrame中不规则日期字符串的清洗与标准化的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1376713.html

csv python yy 数据丢失正则表达式

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python字符串格式化进阶：解包与f-string的巧妙应用

上一篇 2025年12月14日 16:08:25

Pandas DataFrame中复杂日期字符串的清洗与格式化教程

下一篇 2025年12月14日 16:08:34

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
好文分享

在 JavaScript 中移动 TodoList 中的“正在进行”任务如何解决？

javascript 中使用 dom 更新 todolist 在您的问题中，您遇到了在使用 javascript 通过 dom 更新 todolist 时遇到困难的问题。具体来说，您无法将“正在进行”的任务移动到“已完成”部分。问题原因在您提供的 javascript 代码中，拼写错误导致“正在…

程序猿
2025年12月24日
0000
好文分享

在使用 JavaScript 实现的 TodoList 中，如何正确判断 Checkbox 点击事件，从而归类任务？

使用 javascript 实现 todolist，点击 checkbox 后无法正确归类任务问题描述：在使用 javascript 实现的 todolist 中，点击“正在进行”任务中的 checkbox，无法将任务自动归类到“已完成”任务列表。原因分析：在提供的代码中，发现有一个单词拼写错误…

程序猿
2025年12月24日
4000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
3000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

深度剖析程序设计中必不可少的数据类型分类

【深入解析基本数据类型：掌握编程中必备的数据分类】在计算机编程中，数据是最为基础的元素之一。数据类型的选择对于编程语言的使用和程序的设计至关重要。在众多的数据类型中，基本数据类型是最基础、最常用的数据分类之一。通过深入解析基本数据类型，我们能够更好地掌握编程中必备的数据分类。一、基本数据类型的定…

程序猿
2025年12月24日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
4000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
1000
好文分享

html5怎么设置月份_HTML5用input type=”month”让用户选择年月月份【设置】

HTML5的input type=”month”提供原生年月选择器，格式为“YYYY-MM”，支持value默认值、min/max范围限制、name表单提交，并需JavaScript降级兼容旧浏览器。如果您希望在网页中提供一个简洁的年月选择控件，HTML5 的 input …

程序猿
2025年12月23日
3000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
1000
好文分享

html5怎么读取文件_html5用FileReader API读取本地文件内容或属性【读取】

HTML5的FileReader API支持读取本地文件内容及获取基本信息：一、通过input type=”file”获取File对象；二、用readAsText读取文本；三、用readAsDataURL生成Data URL预览资源；四、用readAsArrayBuffer读…

程序猿
2025年12月23日
1000
好文分享

jimdo怎么插入html5时间轴_jimdo时间轴html5代码与节点样式【实操】

Jimdo网站需用自定义HTML5代码实现时间轴：一、内联HTML+CSS轻量嵌入；二、外链CSS+语义化HTML便于复用；三、调用timeline-js-lite库支持交互；四、纯CSS方案零依赖高性能。如果您希望在 Jimdo 网站中呈现可视化的时间发展脉络，但默认编辑器不支持原生时间轴组件，…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
3000
好文分享

如何运行html代码_html代码运行方法【步骤】

HTML代码需保存为.html文件并用浏览器打开才能正确显示；若含AJAX或外部资源则需本地服务器；临时测试可用开发者工具；在线编辑器支持即时预览。如果您编写了一段HTML代码，但无法在浏览器中正确显示效果，则可能是由于文件未以正确的格式保存或未通过浏览器打开。以下是运行HTML代码的具体步骤： …

程序猿
2025年12月23日
1000
好文分享

html5怎么调日期_HTML5用input type=”date”让用户选择或JS调日期【调整】

HTML5原生input type=”date”提供日期选择功能，支持min/max/value属性限制范围，JavaScript可设置/读取YYYY-MM-DD格式值，showPicker()可尝试唤起选择器，不支持时降级为带pattern验证的文本输入。如果您希望在网页…

程序猿
2025年12月23日
0000
好文分享

safari怎么打开html5_Safari浏览器直接输入html5链接自动渲染打开【打开】

Safari中正确渲染HTML5内容需采用file://协议、禁用本地限制、启用HTTP服务器或更新版本并开启实验性功能。具体包括：一、用file:///绝对路径打开本地HTML文件；二、勾选高级设置中的“显示开发菜单”并禁用本地文件限制；三、用Python启动本地HTTP服务，通过http://l…

程序猿
2025年12月23日
0000