
本教程介绍如何使用Pandas高效清洗DataFrame中的日期字符串,目标是保留“日 月 年”格式并移除年份后的所有多余信息。我们将探讨利用正则表达式配合str.replace进行替换和str.extract进行精确提取的两种主要方法,确保数据格式的标准化。
在数据分析和处理中,日期数据的格式不一致是一个常见问题。例如,一个日期列可能包含“21 july 2023 (abcd)”、“22 july 2023 00:00:01”或“23 july 2023 -abcda”等多种带有额外信息的字符串。我们的目标是将这些日期字符串统一清洗为标准的“日 月 年”格式,即保留年份信息,并删除年份之后的所有字符。
初始数据准备
首先,我们创建一个示例Pandas DataFrame来模拟这种常见的数据场景:
import pandas as pd# 创建示例 DataFramedata = { 'id': [1, 2, 3], 'date': [ '21 July 2023 (abcd)', '22 July 2023 00:00:01', '23 July 2023 -abcda', '01 Jan 2024 (test)' # 增加一个不同年份的例子 ]}df = pd.DataFrame(data)print("原始 DataFrame:")print(df)
输出的原始 DataFrame 如下:
原始 DataFrame: id date0 1 21 July 2023 (abcd)1 2 22 July 2023 00:00:012 3 23 July 2023 -abcda3 4 01 Jan 2024 (test)
方法一:使用 str.replace 结合正则表达式进行替换
pandas.Series.str.replace 方法允许我们使用正则表达式来查找并替换字符串中的模式。通过巧妙地构造正则表达式,我们可以定位到年份之后的所有字符并将其替换为空字符串,从而达到清洗的目的。
原理分析
我们使用的正则表达式是 r'(?
b: 这是一个单词边界锚点,确保 d{4} 匹配的是一个独立的四位数,而不是其他数字串的一部分。d{4}: 匹配任意连续的四个数字,这通常代表年份。(?.*: 匹配任意字符(除了换行符)零次或多次。
结合起来,(?
示例代码
# 方法一:使用 str.replace 结合正则表达式df_replace = df.copy() # 复制 DataFrame 以便比较df_replace['date'] = df_replace['date'].str.replace(r'(?<=bd{4}b).*', '', regex=True)print("n使用 str.replace 清洗后的 DataFrame:")print(df_replace)
输出结果:
使用 str.replace 清洗后的 DataFrame: id date0 1 21 July 20231 2 22 July 20232 3 23 July 20233 4 01 Jan 2024
方法二:使用 str.extract 结合正则表达式进行提取
pandas.Series.str.extract 方法用于从字符串中提取符合特定正则表达式模式的子串。如果正则表达式中包含捕获组(即用括号 () 包裹的部分),str.extract 将返回这些捕获组的内容。
原理分析
我们使用的正则表达式是 r'(d+ [a-zA-Z]+ d{4})’。
(d+ [a-zA-Z]+ d{4}): 这是一个捕获组,它定义了我们希望提取的日期格式。d+: 匹配一个或多个数字,代表日期中的“日”。` `: 匹配一个空格。[a-zA-Z]+: 匹配一个或多个英文字母,代表日期中的“月”。` `: 匹配一个空格。d{4}: 匹配四个数字,代表日期中的“年”。
这个正则表达式直接描述了我们期望的“日 月 年”格式。str.extract 会找到并返回与这个捕获组匹配的子串。
示例代码
# 方法二:使用 str.extract 结合正则表达式df_extract = df.copy() # 复制 DataFrame 以便比较df_extract['date'] = df_extract['date'].str.extract(r'(d+ [a-zA-Z]+ d{4})', expand=False)print("n使用 str.extract 清洗后的 DataFrame:")print(df_extract)
输出结果:
使用 str.extract 清洗后的 DataFrame: id date0 1 21 July 20231 2 22 July 20233 3 23 July 20234 4 01 Jan 2024
注意: expand=False 参数确保 str.extract 返回一个 Series 而不是 DataFrame,这使得我们可以直接赋值给原列。
其他考虑与注意事项
年份的灵活性: 上述两种方法都使用了 d{4} 来匹配任意四位数字的年份,这使得它们能够处理不同年份的数据,而不仅仅是固定的“2023”。如果你的需求是只针对某个特定年份(例如,只在“2023”之后进行截断),你可以将 d{4} 替换为具体的年份,例如 2023。
str.replace 示例:df[‘date’].str.replace(r'(?str.extract 示例:df[‘date’].str.extract(r'(d+ [a-zA-Z]+ 2023)’, expand=False)
效率考量:
str.replace 和 str.extract 通常在一次操作中完成任务,对于大型数据集而言,它们的效率通常较高。避免使用多步 str 操作链,例如 df[‘date’].str.split(r'(?
数据类型转换: 清洗后的日期列仍然是 object(字符串)类型。为了进行更高级的日期时间操作(如排序、计算时间差、按时间维度聚合等),强烈建议将其转换为 Pandas 的 datetime 类型:
df_cleaned = df_replace.copy() # 或 df_extractdf_cleaned['date'] = pd.to_datetime(df_cleaned['date'], format='%d %B %Y')print("n转换为 datetime 类型后的 DataFrame:")print(df_cleaned)print("n'date' 列的数据类型:", df_cleaned['date'].dtype)
输出结果:
转换为 datetime 类型后的 DataFrame: id date0 1 2023-07-211 2 2023-07-222 3 2023-07-233 4 2024-01-01'date' 列的数据类型: datetime64[ns]
注意: format=’%d %B %Y’ 参数非常重要,它告诉 pd.to_datetime 函数如何解析日期字符串(%d 代表日,%B 代表完整的月份名称,%Y 代表四位年份)。如果你的月份是缩写(如 “Jul”),则应使用 %b。
总结
本文介绍了两种在Pandas DataFrame中清洗日期字符串的有效方法,旨在保留“日 月 年”格式并移除年份后的冗余信息。str.replace 结合正向后瞻断言的正则表达式适用于删除特定模式后的内容,而 str.extract 则通过捕获组直接提取所需模式。在实际应用中,选择哪种方法取决于你的具体需求和个人偏好。无论选择哪种,最终都建议将清洗后的字符串转换为 datetime 类型,以便进行后续的日期时间分析。掌握这些技巧将大大提高你在数据预处理阶段的效率和准确性。
以上就是Pandas DataFrame日期字符串清洗:精确截取至年份的实用技巧的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1376025.html
微信扫一扫
支付宝扫一扫