Pandas中将hh:mm:ss时间格式转换为总分钟数的教程

Pandas中将hh:mm:ss时间格式转换为总分钟数的教程

本教程详细介绍了如何在Pandas DataFrame中将hh:mm:ss格式的时间字符串转换为总分钟数。文章首先分析了常见的转换错误,随后提供了两种解决方案:一种是基于字符串分割和Lambda表达式的直接修正方法,支持获取整数或浮点分钟数;另一种是利用Pandas内置的pd.to_timedelta函数进行更健壮、更符合Pandas惯例的转换,并推荐作为处理时间数据的最佳实践。

问题背景与挑战

在数据处理中,我们经常会遇到时间数据以字符串形式(如hh:mm:ss)存储的情况。当需要对这些时间进行数值计算,例如将其转换为总分钟数以便进行聚合或分析时,就需要进行格式转换。例如,将1:33:04(1小时33分钟4秒)转换为分钟,期望得到93.06分钟或93分钟。直接对字符串进行数学运算会导致错误,因此需要一套有效的方法来解析并计算。

假设我们有以下Pandas DataFrame:

import pandas as pddf = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})print("原始DataFrame:")print(df)

输出:

原始DataFrame:      Name      Time0      Jim   1:33:041  Chrissy   0:06:392    Billy  10:00:02

我们的目标是创建一个名为_timemin的新列,其中包含Time列对应的总分钟数。

常见错误分析

在尝试将hh:mm:ss格式的字符串转换为分钟时,初学者可能会遇到一些问题。例如,以下尝试代码:

# 错误的尝试# df['_timemin'] = df['Time'].str.split(':').apply(lambda x: (int(x[0])*60) + int(x[1])) + int(x[2]/60)

这段代码会产生NameError: name ‘x’ is not defined或其他类似错误。其主要问题在于:

apply方法的作用域不正确: apply方法应该作用于整个lambda表达式,而不是部分。在上述代码中,apply(lambda x: (int(x[0])*60) + int(x[1])) 试图在 apply 内部完成计算,但紧接着的 + int(x[2]/60) 却在 apply 外部,导致 x 变量在外部未定义。字符串元素未完全转换: 在进行数学运算前,所有从字符串中分割出来的元素(x[0], x[1], x[2])都必须显式地转换为数值类型(例如int)。错误的代码中,x[2]在int(x[2]/60)中被当作字符串进行了除法运算,然后才尝试转换为整数,这是不符合逻辑的。

解决方案一:基于字符串分割与Lambda表达式

这种方法直接修正了上述错误,通过str.split(‘:’)将时间字符串分割成小时、分钟、秒的列表,然后使用apply和lambda表达式对每个列表进行计算。

import pandas as pddf = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})# 1. 获取整数总分钟数 (向下取整)# 将小时、分钟、秒都转换为整数,秒通过整数除法(//)转换为分钟df['_timemin_int'] = df['Time'].str.split(':').apply(lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) // 60)print("n方法一:整数总分钟数")print(df)# 2. 获取浮点数总分钟数 (保留秒的精度)# 将小时、分钟、秒都转换为整数,秒通过浮点除法(/)转换为分钟df['_timemin_float'] = df['Time'].str.split(':').apply(lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) / 60)print("n方法一:浮点数总分钟数")print(df)

代码解释:

df[‘Time’].str.split(‘:’): 这会将Time列中的每个字符串按:分割,生成一个包含小时、分钟、秒字符串的列表(例如[‘1′, ’33’, ’04’])。.apply(lambda x: …): 对split操作产生的每个列表x应用一个匿名函数。int(x[0]) * 60: 将小时字符串x[0]转换为整数并乘以60,得到小时对应的分钟数。int(x[1]): 将分钟字符串x[1]转换为整数。int(x[2]) // 60 (整数分钟):将秒字符串x[2]转换为整数,然后使用整数除法//将其转换为分钟数(向下取整)。int(x[2]) / 60 (浮点分钟):将秒字符串x[2]转换为整数,然后使用浮点除法/将其转换为分钟数,保留小数部分。

解决方案二:利用Pandas内置时间序列功能(推荐)

对于更复杂或大规模的时间数据处理,Pandas提供了强大的Timedelta对象。将时间字符串转换为Timedelta对象,然后提取总秒数并转换为分钟,是更健壮、更符合Pandas惯例且通常性能更优的方法。

import pandas as pddf = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})# 1. 将时间字符串转换为Timedelta对象df['Time_timedelta'] = pd.to_timedelta(df['Time'])# 2. 从Timedelta对象中提取总秒数,并转换为总分钟数df['_timemin_td'] = df['Time_timedelta'].dt.total_seconds() / 60print("n方法二:利用Timedelta对象转换")print(df)

代码解释:

pd.to_timedelta(df[‘Time’]): 这是核心步骤。Pandas会自动解析hh:mm:ss格式的字符串,并将其转换为Timedelta类型。Timedelta对象表示一个时间差,它支持各种时间单位的计算。.dt.total_seconds(): 这是Timedelta序列的一个访问器,用于获取每个时间差的总秒数(以浮点数表示)。/ 60: 将总秒数除以60,即可得到总分钟数。

这种方法不仅代码更简洁,而且由于利用了Pandas底层的优化,对于大型数据集通常具有更好的性能。

完整示例与对比

为了清晰地展示所有方法的输出,我们将其整合到一个完整的示例中:

import pandas as pddf = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})# 方法一:基于字符串分割与Lambda表达式# 1.1 获取整数总分钟数 (向下取整)df['_timemin_int'] = df['Time'].str.split(':').apply(lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) // 60)# 1.2 获取浮点数总分钟数 (保留秒的精度)df['_timemin_float'] = df['Time'].str.split(':').apply(lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) / 60)# 方法二:利用Pandas内置时间序列功能(推荐)df['Time_timedelta'] = pd.to_timedelta(df['Time'])df['_timemin_td'] = df['Time_timedelta'].dt.total_seconds() / 60print("最终结果对比:")print(df)

输出结果:

最终结果对比:      Name      Time Time_timedelta  _timemin_int  _timemin_float  _timemin_td0      Jim   1:33:04        01:33:04            93       93.066667    93.0666671  Chrissy   0:06:39        00:06:39             6        6.650000     6.6500002    Billy  10:00:02        10:00:02           600      600.033333   600.033333

从结果可以看出,_timemin_float和_timemin_td列的结果是完全一致的,都精确到了秒的小数部分。_timemin_int列则进行了向下取整。

注意事项与总结

数据类型转换: 在进行任何数学运算之前,务必确保将从字符串中提取的数值转换为正确的数值类型(int或float)。这是避免TypeError的关键。选择合适的精度: 根据你的分析需求,决定是需要整数分钟数(使用//进行整数除法)还是浮点数分钟数(使用/进行浮点除法)。推荐使用pd.to_timedelta: 尽管基于字符串分割的方法可以直接解决问题,但pd.to_timedelta是处理时间数据的更专业、更高效且更健壮的方法。它能够处理更广泛的时间格式,并且是Pandas时间序列功能的基础,能更好地与后续的时间序列分析操作集成。错误处理: 对于生产环境中的数据,如果Time列可能包含非标准或无效的字符串,pd.to_timedelta提供了errors参数(如errors=’coerce’可以将无法解析的值转换为NaT,即Not a Time),这有助于更好地处理异常数据。

通过本教程,你现在应该能够根据具体需求,灵活且高效地在Pandas DataFrame中将hh:mm:ss格式的时间字符串转换为总分钟数。

以上就是Pandas中将hh:mm:ss时间格式转换为总分钟数的教程的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1365990.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 04:56:09
下一篇 2025年12月14日 04:56:24

相关推荐

  • Python中如何识别未使用的变量和导入语句?

    识别python代码中未使用的变量和导入最直接有效的方法是使用静态代码分析工具。1. flake8是一个轻量级工具,结合pyflakes等组件,能快速识别未使用的导入(f401)和变量(f841);2. pylint则更为全面,除检测未使用代码外,还能分析代码风格、复杂度等,并提示w0611(未使用…

    2025年12月14日 好文分享
    000
  • Tkinter 库存系统条码生成与数据持久化优化指南

    本文旨在解决基于 Tkinter 的库存系统中,条码编号生成重复及数据存储逻辑不健壮的问题。通过深入分析全局变量、文件指针操作(a+ 模式)和重复性检查的常见误区,提供了一套包括动态编号生成、正确文件操作以及健壮重复性验证的优化方案。文章还将探讨使用结构化数据(如 JSON)替代纯文本文件,以提升数…

    2025年12月14日
    000
  • Python函数如何定义?从入门到精通指南

    python中定义函数的核心是使用def关键字,并可通过参数类型和作用域规则实现灵活的功能。1.定义函数需用def关键字后接函数名、括号及参数,最后以冒号结束,函数体需缩进;2.函数参数包括位置参数、关键字参数、默认参数和可变参数(args与*kwargs),分别用于不同场景的灵活传参;3.函数作用…

    2025年12月14日 好文分享
    000
  • 生成准确表达文章主题的标题 Pytest教程:为每个测试模块实现独立的登录会话

    本文介绍如何使用Pytest框架,结合fixture机制,为每个测试模块(例如不同的测试文件)实现独立的登录会话。通过定义一个class级别的fixture,并在每个测试类中使用它,可以在每个测试模块开始前执行登录操作,并在模块结束后执行登出操作,从而确保测试的独立性和可重复性。 在进行自动化测试时…

    2025年12月14日
    000
  • 使用 Pytest 和 Fixture 实现基于类的登录功能

    本文介绍了如何使用 Pytest 的 fixture 功能,在每个测试类执行前实现登录操作。通过定义一个 login fixture,并在测试类中使用 @pytest.mark.usefixtures(“login”) 装饰器,可以确保每个测试类在执行其测试用例之前都会执行登…

    2025年12月14日
    000
  • Pytest 中实现模块级或类级登录与注销管理

    本教程详细阐述了如何利用 Pytest 的 fixture 机制,实现在每个测试类(或模块)执行前自动进行登录操作,并在测试类结束后自动注销。通过配置 conftest.py 文件中的类级别 fixture,并结合 request 对象获取测试类属性,可以灵活管理不同测试场景下的登录凭据,确保测试环…

    2025年12月14日
    000
  • Python中多重异常处理的策略、变量作用域与最佳实践

    本文深入探讨了Python中处理多重异常的有效策略,重点分析了在try-except块中变量的作用域问题,并比较了多种异常处理模式。通过详细的代码示例,文章阐释了为何嵌套try-except块在处理不同阶段可能出现的异常时更为“Pythonic”,能够提供更清晰的错误隔离和更精确的变量状态控制,从而…

    2025年12月14日
    000
  • Python异常处理进阶:多异常捕获与变量作用域的最佳实践

    本文深入探讨Python中处理多重异常的策略,特别是当异常发生导致变量未定义时的作用域问题。通过分析常见误区并提供嵌套try-except块的解决方案,确保代码在处理数据获取和类型转换等依赖性操作时,能够清晰、安全地管理变量状态,从而提升程序的健壮性和可维护性。 理解多重异常与变量作用域挑战 在Py…

    2025年12月14日
    000
  • Python异常处理:多异常捕获与变量作用域的最佳实践

    本文探讨Python中处理多类型异常的有效方法,特别是当异常可能导致变量未定义时。我们将分析直接使用多个except子句的潜在问题,并阐述通过嵌套try-except块来确保变量作用域和程序健壮性的最佳实践。理解异常发生时变量的可见性是编写可靠Python代码的关键。 在Python编程中,我们经常…

    2025年12月14日
    000
  • Python中多异常处理的正确姿势与变量作用域解析

    本文探讨了Python中处理多重异常的有效策略,特别是当不同异常发生在代码执行的不同阶段时,如何正确管理变量作用域。通过分析一个常见的KeyError和ValueError场景,文章强调了在异常捕获链中变量可用性的重要性,并提供了嵌套try-except块的Pythonic解决方案,以确保代码的健壮…

    2025年12月14日
    000
  • Python中优雅处理多重异常与变量作用域的实践指南

    本文深入探讨了Python中处理多重异常时的常见陷阱与最佳实践,特别是涉及变量作用域的问题。通过分析一个典型的try-except结构,我们揭示了在不同异常分支中变量定义状态的重要性,并提出使用嵌套try-except块的有效解决方案。本教程旨在帮助开发者编写更健壮、更符合Pythonic风格的异常…

    2025年12月14日
    000
  • Python怎样实现自动化测试?pytest框架指南

    pytest是python中高效实现自动化测试的框架,适合各种规模项目和入门者。其语法比unittest更简洁,扩展性强,社区支持好。安装通过pip install pytest完成,并创建以test_开头的测试文件,如test_example.py写测试函数。运行时使用pytest命令执行测试。组…

    2025年12月14日 好文分享
    000
  • 使用 Flet 在 Python Banner 中动态显示文本的教程

    本文介绍了在使用 Flet 构建 Python 应用时,如何在 Banner 组件中动态显示不同的文本信息。通过示例代码,详细讲解了两种实现方案:直接在条件判断语句中创建 Banner 对象,以及使用 UserControl 类封装 Banner 组件。帮助开发者更灵活地控制 Banner 的显示内…

    2025年12月14日
    000
  • 配置VS Code以确保Python虚拟环境下的智能提示与自动补全功能正常工作

    本文旨在解决VS Code在Python虚拟环境下智能提示(IntelliSense)和自动补全功能失效的问题。许多开发者尝试通过配置launch.json文件来解决,但该文件主要用于调试配置。正确的解决方案是利用VS Code的用户或工作区settings.json文件,通过设置python.an…

    2025年12月14日
    000
  • VS Code中Python虚拟环境的智能感知与自动补全配置指南

    本文旨在解决VS Code在Python虚拟环境下智能感知和自动补全功能失效的问题,即代码运行正常但编辑器显示大量波浪线错误提示。核心解决方案在于理解launch.json和settings.json的区别,并重点指导用户如何正确选择Python解释器,以及在必要时通过settings.json配置…

    2025年12月14日
    000
  • 优化实时图像采集与处理系统的性能

    本文旨在提供一套优化实时图像采集与处理系统性能的教程。我们将深入探讨如何通过重构代码结构、采用并发编程模型(如线程池和生产者-消费者模式)来解决实时数据处理中的性能瓶颈和数据一致性问题。此外,还将讨论GUI更新的线程安全以及其他潜在的优化策略,帮助开发者构建高效、稳定的实时数据处理应用。 在物理实验…

    2025年12月14日
    000
  • Python如何实现自动化测试?Selenium与Pytest结合指南

    python实现自动化测试的核心方案是结合selenium和pytest。1. 首先,安装python及相关库(selenium、pytest)并配置浏览器驱动;2. 接着,编写测试脚本,使用selenium模拟用户操作,通过pytest管理测试流程及断言;3. 然后,采用page object m…

    2025年12月14日 好文分享
    000
  • Python中如何使用闭包?函数式编程实例

    python闭包的实际用处包括:1.创建工厂函数,如根据折扣率生成计算函数;2.实现装饰器,用于添加日志、计时等功能;3.维护状态,如计数器。闭包与nonlocal的关系在于nonlocal允许内层函数修改外层非全局变量,避免unboundlocalerror。实际开发中需注意延迟绑定问题(可通过默…

    2025年12月14日 好文分享
    000
  • Python中如何使用闭包?函数嵌套应用解析

    闭包是python中函数引用外部作用域变量并记住其状态的机制。其核心特征为:1. 内部函数引用外部函数变量;2. 外部函数返回内部函数。常见应用场景包括:1. 封装状态(如计数器);2. 实现装饰器(如函数包装);3. 简化回调函数(如携带上下文)。使用时需注意:1. 明确变量作用域;2. 避免循环…

    2025年12月14日 好文分享
    000
  • 在Django模板中安全地将后端变量传递给外部JavaScript的最佳实践

    本文详细介绍了在Django项目中,如何安全有效地将后端Python变量传递给前端外部JavaScript文件的两种主要方法:通过内联脚本变量声明和利用HTML数据属性。文章提供了清晰的代码示例,并探讨了每种方法的适用场景、注意事项及进阶考量,旨在帮助开发者在前后端交互中实现数据共享,避免常见错误,…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信