Pandas中字符串时间转换为日期时间时日期意外更改的解决方案

Pandas中字符串时间转换为日期时间时日期意外更改的解决方案

在pandas中将仅包含时间的字符串转换为`datetime`类型时,由于缺少日期信息,`pd.to_datetime`函数会默认填充当前系统日期,导致日期意外更改。本教程将深入解析此问题的原因,并提供两种主要解决方案:通过字符串拼接合并日期和时间,或通过结合`datetime`与`timedelta`对象来精确创建完整的日期时间信息,确保数据转换的准确性。

理解Pandas日期时间转换中的日期变更问题

在使用Pandas处理时间序列数据时,将字符串格式的日期和时间转换为datetime对象是常见的操作。然而,当数据集中日期和时间信息分别存储在不同的列中,并且尝试单独转换仅包含时间的列时,可能会遇到日期意外变更的问题。这是因为pd.to_datetime函数在处理不完整的日期时间字符串(例如,只包含时间的部分)时,会默认使用当前的系统日期来填充缺失的日期信息。

问题现象与复现

考虑以下初始DataFrame,其中order_date和order_time是单独的列:

import pandas as pddata = {    'order_details_id': [1, 2, 3, 4, 5],    'order_id': [1, 2, 2, 2, 2],    'order_date': ['1/1/23', '1/1/23', '1/1/23', '1/1/23', '1/1/23'],    'order_time': ['11:38:36 AM', '11:57:40 AM', '11:57:40 AM', '11:57:40 AM', '11:57:40 AM'],    'item_id': [109.0, 108.0, 124.0, 117.0, 129.0]}df = pd.DataFrame(data)print("初始DataFrame:")print(df)print("n初始DataFrame数据类型:")print(df.dtypes)

输出:

初始DataFrame:   order_details_id  order_id order_date   order_time  item_id0                 1         1     1/1/23  11:38:36 AM    109.01                 2         2     1/1/23  11:57:40 AM    108.02                 3         2     1/1/23  11:57:40 AM    124.03                 4         2     1/1/23  11:57:40 AM    117.04                 5         2     1/1/23  11:57:40 AM    129.0初始DataFrame数据类型:order_details_id      int64order_id              int64order_date           objectorder_time           objectitem_id             float64dtype: object

如果首先将order_date列转换为datetime类型,然后尝试将order_time列也转换为datetime类型:

df['order_date'] = pd.to_datetime(df['order_date'])print("n转换order_date后的DataFrame:")print(df)df['order_time'] = pd.to_datetime(df['order_time'])print("n转换order_time后的DataFrame:")print(df)

你可能会观察到order_time列在转换为datetime后,其日期部分从2023-01-01变为了执行代码时的当前日期(例如2023-12-29)。这是因为”11:38:36 AM”这样的字符串本身不包含任何日期信息,pd.to_datetime在缺乏日期上下文时,会默认使用当前日期进行填充。

# 转换order_date后的DataFrame (示例输出)#    order_details_id  order_id  order_date   order_time  item_id# 0                 1         1  2023-01-01  11:38:36 AM    109.0# ...# 转换order_time后的DataFrame (示例输出,日期部分已更改)#    order_details_id  order_id  order_date          order_time  item_id# 0                 1         1  2023-01-01   2023-12-29 11:38:36    109.0# ...

(注意:order_time列的日期部分会根据你运行代码的实际日期而变化,这里以2023-12-29为例。)

核心原理:pd.to_datetime的默认行为

当pd.to_datetime函数接收到一个只包含时间(如”HH:MM:SS AM/PM”)的字符串时,它无法从该字符串中推断出日期信息。为了生成一个完整的datetime对象,Pandas会采用一个默认策略:将缺失的日期部分填充为函数执行时的当前系统日期。这就是导致日期意外变更的根本原因。

要避免这种问题,关键在于确保在创建datetime对象时,始终提供完整的日期和时间信息。

解决方案

解决此问题的核心思路是,在进行datetime转换之前,将日期和时间信息合并为一个完整的字符串或利用Pandas的日期时间操作功能。

方法一:字符串拼接

此方法通过将日期和时间字符串合并成一个完整的日期时间字符串,然后使用pd.to_datetime进行一次性转换。

# 重新加载初始数据以确保干净状态df = pd.DataFrame(data)# 将order_date和order_time列拼接成一个新的字符串列df['order_datetime'] = pd.to_datetime(df['order_date'].astype(str) + ' ' + df['order_time'].astype(str))print("n方法一:字符串拼接后的DataFrame:")print(df)print("n方法一:新列数据类型:")print(df.dtypes)

输出:

方法一:字符串拼接后的DataFrame:   order_details_id  order_id order_date   order_time  item_id      order_datetime0                 1         1     1/1/23  11:38:36 AM    109.0 2023-01-01 11:38:361                 2         2     1/1/23  11:57:40 AM    108.0 2023-01-01 11:57:402                 3         2     1/1/23  11:57:40 AM    124.0 2023-01-01 11:57:403                 4         2     1/1/23  11:57:40 AM    117.0 2023-01-01 11:57:404                 5         2     1/1/23  11:57:40 AM    129.0 2023-01-01 11:57:40方法一:新列数据类型:order_details_id             int64order_id                     int64order_date                  objectorder_time                  objectitem_id                    float64order_datetime      datetime64[ns]dtype: object

这种方法简单直观,尤其适用于日期和时间格式相对规整的情况。astype(str)确保了在拼接前所有元素都是字符串,避免潜在的类型错误。

方法二:结合datetime与timedelta

这种方法被认为是更优雅和健壮的方式,因为它避免了字符串操作可能带来的格式问题,而是利用了Pandas的日期时间算术功能。首先将日期列转换为datetime对象,然后将时间列转换为timedelta对象,最后将两者相加。

# 重新加载初始数据以确保干净状态df = pd.DataFrame(data)# 将order_date转换为datetime对象# 使用pop()可以同时获取列并从DataFrame中删除它order_date_dt = pd.to_datetime(df.pop('order_date'))# 将order_time转换为timedelta对象# 注意:pd.to_timedelta可以直接解析时间字符串order_time_td = pd.to_timedelta(df.pop('order_time'))# 将datetime和timedelta相加,得到完整的datetime对象df['order_datetime'] = order_date_dt + order_time_tdprint("n方法二:结合datetime与timedelta后的DataFrame:")print(df)print("n方法二:新列数据类型:")print(df.dtypes)

输出:

方法二:结合datetime与timedelta后的DataFrame:   order_details_id  order_id  item_id      order_datetime0                 1         1    109.0 2023-01-01 11:38:361                 2         2    108.0 2023-01-01 11:57:402                 3         2    124.0 2023-01-01 11:57:403                 4         2    117.0 2023-01-01 11:57:404                 5         2    129.0 2023-01-01 11:57:40方法二:新列数据类型:order_details_id             int64order_id                     int64item_id                    float64order_datetime      datetime64[ns]dtype: object

此方法在处理日期和时间格式复杂或需要进行进一步时间算术操作时显示出其优势。pd.to_timedelta能够智能地解析时间字符串,并将其转换为表示时间差的Timedelta对象。

方法三:处理预合并的日期时间字符串

在某些情况下,你可能从数据源获得的数据已经将日期和时间合并在一个字符串列中。在这种情况下,直接使用pd.to_datetime进行转换即可。

# 假设我们有一个预合并的日期时间列df_combined = pd.DataFrame({    'order_details_id': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5},    'order_id': {0: 1, 1: 2, 2: 2, 3: 2, 4: 2},    'order_date_time': {0: '1/1/23 11:38:36 AM',                        1: '1/1/23 11:57:40 AM',                        2: '1/1/23 11:57:40 AM',                        3: '1/1/23 11:57:40 AM',                        4: '1/1/23 11:57:40 AM'},    'item_id': {0: 109.0, 1: 108.0, 2: 124.0, 3: 117.0, 4: 129.0}})df_combined['order_dt'] = pd.to_datetime(df_combined['order_date_time'])print("n方法三:处理预合并日期时间字符串的DataFrame:")print(df_combined)print("n方法三:新列数据类型:")print(df_combined.dtypes)

输出:

方法三:处理预合并日期时间字符串的DataFrame:   order_details_id  order_id     order_date_time  item_id            order_dt0                 1         1  1/1/23 11:38:36 AM    109.0 2023-01-01 11:38:361                 2         2  1/1/23 11:57:40 AM    108.0 2023-01-01 11:57:402                 3         2  1/1/23 11:57:40 AM    124.0 2023-01-01 11:57:403                 4         2  1/1/23 11:57:40 AM    117.0 2023-01-01 11:57:404                 5         2  1/1/23 11:57:40 AM    129.0 2023-01-01 11:57:40方法三:新列数据类型:order_details_id             int64order_id                     int64order_date_time             objectitem_id                    float64order_dt            datetime64[ns]dtype: object

注意事项与最佳实践

始终提供完整的日期时间信息: 避免将仅有时间或仅有日期的字符串单独转换为datetime对象,除非你确实希望Pandas填充默认值。明确指定格式(format参数): 如果你的日期时间字符串格式不标准或可能存在歧义,使用pd.to_datetime的format参数明确指定输入格式,例如pd.to_datetime(df[‘date_col’], format=’%m/%d/%y %I:%M:%S %p’)。这可以提高转换的效率和准确性。错误处理(errors参数): 当数据中可能存在无法解析的日期时间字符串时,可以使用errors=’coerce’参数。这会将无法解析的值转换为NaT(Not a Time),而不是引发错误,从而提高代码的健壮性。数据类型检查: 转换后,务必使用df.dtypes或df[‘column’].dtype检查新列的数据类型,确保其为datetime64[ns]。性能考量: 对于大型数据集,字符串拼接(方法一)可能比datetime与timedelta结合(方法二)略慢,因为字符串操作通常开销较大。在性能敏感的场景下,可以优先考虑方法二或预处理数据。

总结

在Pandas中处理日期时间数据时,理解pd.to_datetime的默认行为至关重要。当将仅包含时间的字符串转换为datetime类型时,由于缺少日期信息,Pandas会默认填充当前系统日期,导致数据不准确。通过将日期和时间信息合并为一个完整的字符串进行转换,或利用datetime与timedelta对象的算术操作,可以有效地解决这一问题,确保生成正确的日期时间对象。选择哪种方法取决于原始数据的结构和个人偏好,但核心原则是:在创建datetime对象时,确保其包含完整的日期和时间上下文。

以上就是Pandas中字符串时间转换为日期时间时日期意外更改的解决方案的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1380836.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 22:26:38
下一篇 2025年12月14日 22:26:49

相关推荐

  • 使用Python和正则表达式从字符串中提取关键词右侧文本

    本文将详细介绍如何使用python,特别是正则表达式,从字符串中截取并保留指定关键词右侧的内容。通过高效的正则表达式模式,我们可以精确地移除关键词及其左侧的所有文本,从而获得所需的目标子串。这对于处理音频转录等需要基于特定标记进行内容筛选的场景尤为实用。 Python字符串:从指定关键词开始截取右侧…

    2025年12月14日
    000
  • 在Rust的pyO3中判断Python自定义类实例的类型

    在Rust中使用pyO3库时,正确判断一个PyAny对象是否为特定的Python自定义类实例,是进行跨语言交互时常见的需求。尤其是在需要处理Python应用程序中定义的复杂数据结构,例如自定义的MessagePack序列化场景下,准确识别对象类型至关重要。 理解pyO3中的类型检查机制 当我们需要从…

    2025年12月14日
    000
  • Python中高效且优雅地深度合并字典的策略与实践

    本教程旨在深入探讨如何在python中高效且优雅地深度合并两个字典,特别是当字典包含嵌套结构且键不完全重叠时。我们将介绍一种利用`setdefault`和`update`方法的pythonic方案,该方案能够确保所有数据不丢失,并能有效处理大型字典,实现键的智能合并与值的更新,从而生成一个综合性的合…

    2025年12月14日
    000
  • Python处理嵌套字典缺失键:defaultdict与.get()的实践指南

    在python中处理来自嵌套字典的数据时,如果键缺失,直接访问会导致`keyerror`,特别是在为数据库准备数据时。本文将介绍两种优雅且pythonic的方法来解决此问题:利用`collections.defaultdict`实现深度默认值,以及通过链式调用`.get()`方法来安全地获取值。这些…

    2025年12月14日
    000
  • Mypy类型检查一致性:解决本地、pre-commit与CI环境差异

    本文深入探讨了在Python项目中,Mypy类型检查在本地开发环境、pre-commit钩子和持续集成(CI)流程中出现不一致行为的常见原因及解决方案。核心在于理解Mypy的不同调用方式(全目录扫描与文件列表传递)、环境差异(Python及依赖版本)以及如何通过标准化配置和显式类型注解来确保类型检查…

    2025年12月14日
    000
  • 利用数位DP高效计算指定范围内数位和小于等于X的整数数量

    本文详细介绍了如何使用数位动态规划(digit dp)算法,高效计算在给定大范围 `[1, n]` 内,其数位和小于或等于特定值 `x` 的整数数量。针对 `n` 值可达 `10^12` 的情况,传统遍历方法效率低下,数位dp通过递归分解问题并结合记忆化搜索,将时间复杂度优化至对数级别,有效解决了大…

    2025年12月14日
    000
  • 高效计算指定范围内数字和小于等于特定值的整数计数算法

    本文深入探讨了如何在给定大范围 `n` 内,高效计算数字和小于等于 `x` 的整数数量。针对传统循环遍历的低效性,文章详细介绍了数字动态规划(digit dp)的核心思想、递归分解策略及记忆化优化,并通过具体示例和python代码,提供了解决此类问题的专业教程方案,确保在大数据量下的高性能计算。 引…

    2025年12月14日
    000
  • Python教程:安全高效地从嵌套JSON数据中提取特定字段(如URL)

    本教程旨在指导python开发者如何从复杂的嵌套json响应中安全有效地提取特定数据,特别是url字符串。文章将重点介绍在处理api返回的字典结构时,如何利用python的`.get()`方法避免`keyerror`,确保代码的健壮性,并提供具体的代码示例和最佳实践。 理解API响应与嵌套JSON数…

    2025年12月14日
    000
  • Flet应用中NavigationDrawer与路由集成问题的解决方案

    本文旨在解决Flet应用中,当`NavigationDrawer`与路由机制结合使用时,可能出现的“Control must be added to the page first”错误。我们将深入探讨该错误产生的原因,特别是抽屉控件与视图(View)生命周期的关联,并提供一个明确的解决方案,确保`N…

    2025年12月14日
    000
  • Python处理嵌套字典缺失键:优雅地填充“NULL”值

    文章将探讨在python中处理嵌套字典缺失键的健壮方法,尤其是在准备数据进行数据库插入时。它将涵盖使用collections.defaultdict进行自动默认值分配,以及通过链式调用.get()方法简洁无误地检索值,确保缺失数据默认填充为“null”而不会导致程序崩溃。 在Python中处理从AP…

    2025年12月14日
    000
  • 在 C# 中使用 IronPython 运行需要激活 VENV 的脚本

    本文介绍了如何在 C# 中使用 IronPython 运行依赖于已激活 Python 虚拟环境 (VENV) 的脚本。核心在于,并非需要激活 VENV,而是直接指定 VENV 中 Python 解释器的完整路径,从而确保脚本在正确的环境中执行。文章提供了详细的代码示例,展示如何在 C# 中配置 `P…

    2025年12月14日
    000
  • Python代码无报错但无法执行:深度解析与调试策略

    本文探讨python代码在无明显错误提示下停止执行或输出异常的原因,尤其关注因缺少模块导入而被宽泛异常捕获掩盖的问题。文章强调了显式导入、精细化异常处理以及系统性调试方法的重要性,旨在帮助开发者更有效地定位并解决这类“静默失败”的编程难题。 在Python开发中,开发者有时会遇到代码看似正常运行,但…

    2025年12月14日
    000
  • Scrapy多层内部链接爬取优化:避免重复与数据不完整

    本文深入探讨了使用Scrapy框架进行多层内部链接爬取时常见的挑战,特别是如何有效避免数据重复、不完整以及跳过关键内容的问题。通过分析错误的爬取策略,文章提供了优化分页处理、正确使用请求过滤器以及合理组织数据提取和项(Item)提交的专业解决方案,旨在帮助开发者构建更高效、更健壮的Scrapy爬虫。…

    2025年12月14日
    000
  • Python属性与增强赋值操作符 (+=) 的陷阱与处理

    本文深入探讨python属性在使用增强赋值操作符(如`+=`)时的特殊行为。当对一个属性执行`+=`操作时,不仅会调用底层对象的`__iadd__`方法进行原地修改,还会意外地触发该属性的setter方法,并传入`__iadd__`的返回值。文章将通过示例代码解析这一机制,并提供一种健壮的sette…

    2025年12月14日
    000
  • python进程的交流方式

    Python中进程间通信主要有四种方式:1. multiprocessing.Queue支持跨进程安全的数据传递,适用于多生产者消费者场景;2. multiprocessing.Pipe提供双向通信通道,适合两个进程间的点对点高效通信;3. Value和Array通过共享内存实现简单数据类型共享,性…

    2025年12月14日
    000
  • Telethon中从Telegram消息移除图片的方法指南

    本文详细介绍了在telethon框架下,如何有效地从telegram消息中移除图片。针对 `event.edit` 方法无法直接删除媒体附件的局限性,本教程阐述了通过 `client.delete_messages` 方法删除包含图片的原始消息,从而实现“移除”图片的目的。文章提供了完整的代码示例、…

    2025年12月14日
    000
  • 使用Telethon从Telegram消息中移除图片:理解与实践删除策略

    在使用telethon库处理telegram消息时,直接通过`event.edit(file=none)`移除已发送消息中的图片是不支持的。本文将详细介绍如何在telethon中正确地“移除”图片,其核心策略是删除包含图片的原消息。我们将提供一个完整的python代码示例,演示如何根据消息id获取并…

    2025年12月14日
    000
  • Python-pptx教程:在同一段落中为子字符串添加超链接

    本教程详细介绍了如何使用`python-pptx`库在powerpoint幻灯片的同一文本段落中,为特定子字符串添加超链接。通过创建多个`run`对象并将其关联到同一个`paragraph`,可以实现文本的无缝连接与局部超链接的精确设置,避免了因分段导致的布局问题,从而提升了文档生成的灵活性和专业性…

    2025年12月14日
    000
  • 高效查找布尔数组中下一个True值的索引

    本教程探讨在布尔数组中高效查找给定索引后第一个True值的方法。针对频繁查询场景,我们提出一种预处理方案。通过一次O(N)的逆序遍历构建辅助数组,每个索引处存储其后第一个True值的索引。此方法使得后续每次查询都能在O(1)时间复杂度内完成,显著优于传统的线性扫描。文章将详细介绍算法原理、实现代码、…

    2025年12月14日
    000
  • Selenium 自动化中“元素点击拦截”错误深度解析与解决方案

    本文深入探讨了 Selenium 自动化测试中常见的“Element is not clickable”错误,特别是当元素被其他不可见或重叠元素拦截时的问题。我们将详细介绍传统 `click()` 方法的局限性,并提供一种高效的替代方案:利用 `send_keys(Keys.ENTER)` 模拟键盘…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信