
在数据分析和处理过程中,我们经常会遇到日期时间字符串格式不规范的问题。例如,一个日期字段可能包含日期以外的额外信息,如时间戳、备注或括号内的描述。当需要标准化这些日期字符串,仅保留到年份为止的部分时,Pandas结合正则表达式提供了强大而灵活的解决方案。本教程将深入探讨如何在Pandas DataFrame中高效地清理此类日期字符串,确保年份信息得以完整保留。
1. 准备示例数据
首先,我们创建一个示例dataframe来模拟实际数据情况:
import pandas as pddata = { 'id': [1, 2, 3], 'date': ['21 July 2023 (abcd)', '22 July 2023 00:00:01', '23 July 2023 -abcda']}df = pd.DataFrame(data)print("原始DataFrame:")print(df)
输出:
原始DataFrame: id date0 1 21 July 2023 (abcd)1 2 22 July 2023 00:00:012 3 23 July 2023 -abcda
我们的目标是将date列转换为21 July 2023、22 July 2023、23 July 2023这样的标准化格式。
2. 方法一:使用 str.replace 结合正则表达式进行替换
此方法通过查找并替换年份后的所有字符来清理字符串。关键在于使用正则表达式的正向后瞻(Positive Lookbehind)特性,它允许我们匹配某个模式之后的内容,而不将该模式本身包含在匹配结果中。
# 方法一:使用 str.replace 结合正向后瞻df['date'] = df['date'].str.replace(r'(?<=bd{4}b).*', '', regex=True)print("n方法一结果 (str.replace):")print(df)
输出:
方法一结果 (str.replace): id date0 1 21 July 20231 2 22 July 20232 3 23 July 2023
*正则表达式解析 `r'(?’`:**
b: 单词边界,确保d{4}匹配的是一个独立的四位数,而不是其他数字序列的一部分。d{4}: 匹配任意四个数字,代表年份。(?.*: 匹配零个或多个任意字符(除了换行符)。这会匹配年份之后的所有内容。regex=True: 必须设置为True以启用正则表达式匹配。
注意事项:
此方法适用于删除任何四位数字年份之后的所有内容。如果需要针对特定的年份(例如,只删除“2023”之后的内容),可以将d{4}替换为具体年份,如r'(?
3. 方法二:使用 str.extract 结合正则表达式进行提取
与替换不同,str.extract方法通过定义一个捕获组来直接提取符合特定模式的字符串部分。当日期字符串的格式相对固定,且我们明确知道要提取的模式时,此方法非常有效。
为了演示此方法,我们先重置DataFrame到原始状态。
# 重置DataFrame到原始状态df = pd.DataFrame(data)# 方法二:使用 str.extract 结合捕获组df['date'] = df['date'].str.extract(r'(d+ [a-zA-Z]+ d{4})', expand=False)print("n方法二结果 (str.extract):")print(df)
输出:
方法二结果 (str.extract): id date0 1 21 July 20231 2 22 July 20232 3 23 July 2023
正则表达式解析 r'(d+ [a-zA-Z]+ d{4})’:
d+: 匹配一个或多个数字,代表日期中的“日”。[a-zA-Z]+: 匹配一个或多个字母,代表日期中的“月”(如July)。d{4}: 匹配四个数字,代表日期中的“年”。(): 括号创建了一个捕获组。str.extract会提取这个捕获组匹配到的内容。expand=False: 确保返回一个Series而不是DataFrame。
适用场景:
当日期字符串的结构(日 月 年)相对固定,且您希望精确提取这部分内容时,str.extract是理想选择。如果原始字符串不完全符合提取模式,str.extract会返回NaN。
4. 其他考虑:str.split 的局限性与改进
用户最初尝试使用df[‘date’].str.rsplit(‘2023’, 1).str.get(0),这种方法的问题在于它会移除分隔符2023,导致年份丢失。虽然可以通过后续拼接来弥补,但这增加了操作的复杂性。
一种结合str.split和正向后瞻的变体可以实现类似效果,但通常不如前两种方法高效或通用:
# 重置DataFrame到原始状态df = pd.DataFrame(data)# 方法三:使用 str.split 结合正向后瞻 (仅供参考,效率略低)df['date'] = df['date'].str.split(r'(?<=2023)', regex=True).str.get(0)print("n方法三结果 (str.split with lookbehind):")print(df)
输出:
方法三结果 (str.split with lookbehind): id date0 1 21 July 20231 2 22 July 20233 3 23 July 2023
此方法同样利用了正向后瞻(?仅限于处理特定年份(如2023),且通常需要两次str操作(str.split后跟str.get),效率可能略低于单一的str.replace或str.extract。
5. 总结与选择建议
在Pandas中清理日期字符串并保留年份,正则表达式是不可或缺的工具。
*`str.replace(r'(?’, ”, regex=True)`:适用于当您需要移除年份之后的所有内容**,且年份本身是可变的四位数字时。它通过替换实现清理,通常更为通用。str.extract(r'(d+ [a-zA-Z]+ d{4})’, expand=False):适用于当您需要精确提取符合特定日期格式(日 月 年)的字符串时。它通过捕获并提取目标模式实现清理,当原始字符串结构稳定时表现优异。
根据您的具体需求和日期字符串的复杂程度,选择最合适的正则表达式和Pandas方法,可以大大提高数据清洗的效率和准确性。
以上就是Pandas数据清洗:从日期字符串中移除年份后的多余信息的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1375989.html
微信扫一扫
支付宝扫一扫