
在Pandas数据处理管道中,当合并两个DataFrame后需要基于现有列计算生成新列时,直接使用assign()或transform()可能因类型错误而失败。本文将介绍两种高效且正确的解决方案:利用DataFrame.eval()进行简洁的字符串表达式求值,以及通过assign()结合lambda函数实现灵活的列计算,从而优化数据处理流程并提升代码可读性。
在Pandas的数据分析工作中,我们经常需要将多个DataFrame合并,并在合并后立即根据现有列执行计算以生成新的数据列。将这些操作封装在链式管道(pipeline)中,可以显著提高代码的可读性和维护性。然而,在尝试通过assign()或transform()方法在管道中创建新列时,初学者可能会遇到TypeError,尤其是在直接引用列名进行数学运算时。
理解问题:管道中新列计算的挑战
假设我们有两个DataFrame,solar_part和solar_aod,它们通过pool列进行合并:
import pandas as pdsolar_part = pd.DataFrame( {'pool': 1, 'orig': 635.1}, index = [0] )solar_aod = pd.DataFrame( {'pool': [1,1,1,1], 'MoP': [1,2,3,4], 'prin': [113.1, 115.3, 456.6, 234.1]} )
我们的目标是在合并后,基于prin和orig两列计算一个新的列remn(例如,remn = prin / orig)。一个常见的尝试是直接在assign()中使用列名字符串:
# 错误示范# solar_p = (# solar_aod# .merge(solar_part, on = ['pool'], how = 'left')# .assign(remn = ['prin'] / ['orig']) # 或 assign(remn = 'prin' / 'orig')# )
这种写法会导致TypeError: unsupported operand type(s) for /: ‘list’ and ‘list’(或’str’ and ‘str’),因为assign()在默认情况下会将’prin’或[‘prin’]解释为字符串字面量或字符串列表,而不是DataFrame中的列引用。因此,不能直接对这些字面量执行数学运算。
为了在管道中高效且正确地完成这类操作,Pandas提供了几种解决方案。
解决方案一:利用 DataFrame.eval() 简化表达式计算
DataFrame.eval()方法允许我们以字符串形式定义表达式,并在DataFrame的上下文中执行它们。这使得它非常适合在管道中创建新列,特别是当表达式涉及多个现有列的简单数学运算时。
使用eval()的优点在于其简洁性和效率,Pandas会在底层优化这些字符串表达式的计算。
solar_p_eval = ( solar_aod .merge(solar_part, on='pool', how='left') .eval('remn = prin / orig'))print(solar_p_eval)
输出结果:
pool MoP prin orig remn0 1 1 113.1 635.1 0.1780821 1 2 115.3 635.1 0.1815462 1 3 456.6 635.1 0.7189423 1 4 234.1 635.1 0.368603
eval()方法直接将字符串’remn = prin / orig’解析为在当前DataFrame上执行的操作,其中prin和orig被正确识别为列名。
解决方案二:assign() 结合 lambda 函数的灵活性
虽然eval()在处理简单表达式时非常强大,但assign()方法通过结合lambda函数提供了更大的灵活性,尤其是在需要执行更复杂的逻辑或调用自定义函数时。
当assign()接收一个可调用对象(如lambda函数)作为参数时,它会将当前的DataFrame作为输入传递给这个函数。这样,我们就可以在lambda函数内部安全地引用DataFrame的列。
solar_p_assign_lambda = ( solar_aod .merge(solar_part, on='pool', how='left') .assign(remn = lambda df: df['prin'] / df['orig']))print(solar_p_assign_lambda)
输出结果:
pool MoP prin orig remn0 1 1 113.1 635.1 0.1780821 1 2 115.3 635.1 0.1815462 1 3 456.6 635.1 0.7189423 1 4 234.1 635.1 0.368603
在这个例子中,lambda df: df[‘prin’] / df[‘orig’]接收合并后的DataFrame df,然后通过df[‘prin’]和df[‘orig’]正确访问到相应的列Series,并执行逐元素的除法运算。
注意事项与最佳实践
选择方法:
eval(): 适用于涉及简单数学运算符(+, -, *, /, **等)和比较运算符的列间计算。它的语法更简洁,对于大型数据集可能具有性能优势,因为它通常会利用NumPy进行优化。assign() + lambda: 提供更高的灵活性。当你需要执行更复杂的逻辑,例如条件判断、调用自定义函数、或者链式应用多个Pandas方法来生成新列时,lambda函数是更好的选择。
可读性: 管道操作(pipe、链式调用)本身就旨在提高代码的可读性。选择最能清晰表达意图的方法至关重要。对于简单的列计算,eval()通常更直观。
性能: 对于大规模数据,eval()在某些情况下可能会比assign与lambda的组合更快,因为它能够利用numexpr库进行优化。然而,对于大多数常见场景,两者的性能差异可能不明显。
避免直接字符串运算: 记住,在assign()中直接使用字符串字面量进行运算是无效的。必须通过可调用对象(如lambda)来访问DataFrame的列。
总结
在Pandas的数据处理管道中,合并数据后创建新列是一个常见需求。为了避免TypeError并保持代码的简洁性,我们推荐使用DataFrame.eval()进行简单的列间数学运算,或者使用assign()结合lambda函数来处理更复杂的计算逻辑。这两种方法都能优雅地融入Pandas的链式操作,显著提升数据处理代码的效率和可维护性。理解它们的适用场景和工作原理,将帮助你更高效地利用Pandas进行数据分析。
以上就是Pandas管道操作中合并后创建新列:eval与assign的正确姿势的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1382709.html
微信扫一扫
支付宝扫一扫