
本教程详细介绍了如何在Pandas DataFrame中,将’hh:mm:ss’字符串格式的时间数据转换为总分钟数。文章分析了常见的转换误区,并提供了基于字符串分割与数学运算的两种精确解决方案,包括整数分钟和浮点分钟的计算方法。此外,教程还推荐了使用Pandas内置时间序列功能pd.to_timedelta进行更健壮、高效的时间转换,并提供了代码示例及注意事项,帮助用户准确处理时间数据。
问题背景与数据准备
在数据处理中,我们经常会遇到时间数据以字符串形式存在的情况,例如’hh:mm:ss’。当需要对这类时间进行数值计算,比如将其转换为总分钟数时,就需要进行格式转换。本教程将指导您如何在pandas dataframe中高效且准确地完成这一任务。
假设我们有如下DataFrame,其中Time列为hh:mm:ss格式:
import pandas as pddf = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})print("原始DataFrame:")print(df)
输出:
原始DataFrame: Name Time0 Jim 1:33:041 Chrissy 0:06:392 Billy 10:00:02
我们的目标是创建一个新列_timemin,将Time列转换为对应的总分钟数,例如10:00:02应转换为600.03分钟。
常见误区与错误分析
在尝试转换时,用户可能会遇到一些常见的错误。例如,以下代码尝试使用str.split和apply函数进行转换,但会产生NameError:
# 错误的尝试,会引发 NameError# df['_timemin'] = df['Time'].str.split(':').apply(lambda x: (int(x[0])*60) + int(x[1])) + int(x[2]/60)
此代码存在以下几个主要问题:
apply方法未正确闭合: apply方法的作用域仅限于lambda x: (int(x[0])*60) + int(x[1])部分。+ int(x[2]/60)这部分代码在apply函数外部,导致无法访问lambda函数内部定义的变量x,从而引发NameError。字符串到数值的转换缺失: 即使apply方法正确闭合,x[2](秒数)在进行除法运算前也需要先转换为数值类型(int或float),否则会报错。
解决方案一:基于字符串分割与数学运算
这种方法直接将时间字符串分割成小时、分钟和秒,然后通过数学公式计算总分钟数。
import pandas as pddf = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})# 1. 计算总分钟数(秒数部分进行整数除法,即向下取整)# 公式:小时 * 60 + 分钟 + 秒 // 60df['_timemin_int_sec'] = df['Time'].str.split(':').apply(lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) // 60)print("n使用整数秒数计算的总分钟数:")print(df)# 2. 计算总分钟数(秒数部分进行浮点除法,保留小数)# 公式:小时 * 60 + 分钟 + 秒 / 60df['_timemin_float_sec'] = df['Time'].str.split(':').apply(lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) / 60)print("n使用浮点秒数计算的总分钟数:")print(df)
输出:
使用整数秒数计算的总分钟数: Name Time _timemin_int_sec0 Jim 1:33:04 931 Chrissy 0:06:39 62 Billy 10:00:02 600使用浮点秒数计算的总分钟数: Name Time _timemin_float_sec0 Jim 1:33:04 93.0666671 Chrissy 0:06:39 6.6500002 Billy 10:00:02 600.033333
原理分析:
df[‘Time’].str.split(‘:’):将Time列中的每个时间字符串按冒号:分割,返回一个包含小时、分钟、秒的列表(例如[‘1′, ’33’, ’04’])。.apply(lambda x: …):对每个分割后的列表x应用一个匿名函数。int(x[0]) * 60:将小时部分(x[0])转换为整数并乘以60,得到小时对应的分钟数。int(x[1]):将分钟部分(x[1])转换为整数。int(x[2]) // 60 或 int(x[2]) / 60:将秒部分(x[2])转换为整数,然后使用整数除法//(向下取整)或浮点除法/(保留小数)转换为分钟。选择哪种除法取决于您对秒数精度(是否保留小数)的要求。
解决方案二:利用Pandas时间序列功能 (推荐)
对于时间数据处理,Pandas提供了强大的Timestamp和Timedelta对象,它们能够更健壮、更高效地处理时间相关的计算。将时间字符串转换为Timedelta对象是更专业和推荐的做法。
import pandas as pddf = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})# 将时间字符串转换为Timedelta对象df['Time_timedelta'] = pd.to_timedelta(df['Time'])# 提取总秒数并转换为总分钟数df['_timemin_timedelta'] = df['Time_timedelta'].dt.total_seconds() / 60print("n使用Timedelta转换的总分钟数:")print(df)
输出:
使用Timedelta转换的总分钟数: Name Time Time_timedelta _timemin_timedelta0 Jim 1:33:04 0 days 01:33:04 93.0666671 Chrissy 0:06:39 0 days 00:06:39 6.6500002 Billy 10:00:02 0 days 10:00:02 600.033333
原理分析:
pd.to_timedelta(df[‘Time’]):这是最关键的一步。Pandas会自动解析’hh:mm:ss’格式的字符串,将其转换为Timedelta对象。Timedelta对象表示一个时间段,可以进行加减运算。.dt.total_seconds():Timedelta对象的.dt访问器提供了total_seconds()方法,可以直接获取该时间段的总秒数(浮点型)。/ 60:将总秒数除以60,即可得到总分钟数。
这种方法不仅代码更简洁,而且在处理更复杂的时间格式或需要进行时间段加减运算时,也更具通用性和鲁棒性。
注意事项
数据类型一致性: 确保时间列的数据类型是字符串,pd.to_timedelta能够很好地处理常见的字符串时间格式。错误处理: 如果时间字符串中存在不符合hh:mm:ss格式的数据,pd.to_timedelta在默认情况下会报错。可以通过设置errors=’coerce’参数来将无法解析的值转换为NaT(Not a Time),从而避免程序中断。
df_err = pd.DataFrame({'Time': ['1:33:04', 'invalid_time', '0:06:39']})df_err['Time_timedelta'] = pd.to_timedelta(df_err['Time'], errors='coerce')df_err['_timemin'] = df_err['Time_timedelta'].dt.total_seconds() / 60print("n处理无效时间数据:")print(df_err)
性能考量: 对于非常大的数据集,pd.to_timedelta通常比str.split().apply()结合lambda函数更高效,因为它在底层使用了优化的C/Cython代码。精度选择: 根据业务需求选择秒数是进行整数除法(// 60)还是浮点除法(/ 60),这决定了总分钟数是否包含小数部分。通常情况下,浮点分钟数更精确。
总结
本教程详细
以上就是Pandas中将’hh:mm:ss’时间格式转换为总分钟数的教程的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1366115.html
微信扫一扫
支付宝扫一扫