
本文介绍了如何基于多个列将两个 Pandas DataFrames 进行合并,并处理缺失值的情况。我们将探讨使用 `merge` 函数以及 `add_suffix` 函数来清晰区分左右 DataFrame 的列,并展示如何对合并后的结果进行排序。
Pandas 提供了强大的数据合并功能,其中 merge 函数是实现 DataFrame 连接的关键工具。当需要基于多个列进行连接,并且希望处理两个 DataFrame 中存在差异的数据时,需要采取一些额外的技巧。
使用 merge 和 add_suffix
最直接的方法是使用 pandas.DataFrame.merge 函数,并结合 pandas.DataFrame.add_suffix 函数来区分左右 DataFrame 的列名。
import pandas as pd# 示例数据df1 = pd.DataFrame({ 'level': ['Level 0', 'Level 1', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 3'], 'title': ['Effective', 'Evaluation', 'Ice Breaker', 'Fire', 'Introduction', 'Understanding', 'Connect']})df2 = pd.DataFrame({ 'level': ['Level 0', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 4'], 'title': ['Effective', 'Evaluation', 'Comedy', 'Introduction', 'Understanding', 'Connect']})# 使用 merge 和 add_suffixout = df1.merge(df2.add_suffix('_'), how='outer', left_on=['level', 'title'], right_on=['level_', 'title_'])print(out)
这段代码首先导入 pandas 库,并创建两个示例 DataFrame df1 和 df2。然后,使用 merge 函数将这两个 DataFrame 连接起来。how=’outer’ 参数指定了外连接,这意味着保留两个 DataFrame 中的所有行,对于没有匹配的行,会填充 NaN 值。left_on 和 right_on 参数分别指定了左侧和右侧 DataFrame 中用于连接的列。add_suffix(‘_’) 用于给 df2 的列名添加后缀,以避免列名冲突。
输出结果如下:
level title level_ title_0 Level 0 Effective Level 0 Effective1 Level 1 Evaluation Level 1 Evaluation2 Level 1 Ice Breaker NaN NaN3 Level 1 Fire NaN NaN4 Level 2 Introduction Level 2 Introduction5 Level 2 Understanding Level 2 Understanding6 Level 3 Connect NaN NaN7 NaN NaN Level 1 Comedy8 NaN NaN Level 4 Connect
基于合并键排序
如果需要对合并后的结果基于连接键进行排序,可以使用以下方法:
import pandas as pd# 示例数据df1 = pd.DataFrame({ 'level': ['Level 0', 'Level 1', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 3'], 'title': ['Effective', 'Evaluation', 'Ice Breaker', 'Fire', 'Introduction', 'Understanding', 'Connect']})df2 = pd.DataFrame({ 'level': ['Level 0', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 4'], 'title': ['Effective', 'Evaluation', 'Comedy', 'Introduction', 'Understanding', 'Connect']})out = (df1.merge(df2, how='outer', left_on=[df1['level'], df1['title']], right_on=['level', 'title']) .sort_values(by=['level']) #.drop(columns=['level', 'title']) # uncomment to drop merged keys )print(out)
这段代码与前一个示例类似,但使用了不同的 left_on 参数,将 df1[‘level’] 和 df1[‘title’] 作为列表传递给 left_on。然后,使用 sort_values 函数基于 ‘level’ 列对结果进行排序。如果需要,可以取消注释 # .drop(columns=[‘level’, ‘title’]) 行来删除合并键。
输出结果如下:
level title level_x title_x level_y title_y0 Level 0 Effective Level 0 Effective Level 0 Effective1 Level 1 Evaluation Level 1 Evaluation Level 1 Evaluation2 Level 1 Ice Breaker Level 1 Ice Breaker NaN NaN3 Level 1 Fire Level 1 Fire NaN NaN7 Level 1 Comedy NaN NaN Level 1 Comedy4 Level 2 Introduction Level 2 Introduction Level 2 Introduction5 Level 2 Understanding Level 2 Understanding Level 2 Understanding6 Level 3 Connect Level 3 Connect NaN NaN8 Level 4 Connect NaN NaN Level 4 Connect
注意事项
列名冲突: 在合并 DataFrame 时,需要注意列名冲突的问题。可以使用 add_suffix 或 add_prefix 函数来避免冲突。连接类型: 根据实际需求选择合适的连接类型(inner, outer, left, right)。排序: 如果需要对结果进行排序,可以使用 sort_values 函数。缺失值: 外连接可能会引入缺失值(NaN)。可以使用 fillna 函数来填充缺失值。
总结
本文介绍了如何基于多个列合并 Pandas DataFrames,并处理缺失值和排序的问题。通过使用 merge 函数和 add_suffix 函数,可以灵活地控制 DataFrame 的连接方式,并获得所需的结果。 理解这些技巧对于进行复杂的数据分析和处理至关重要。
以上就是基于多列合并 Pandas DataFrames 的方法的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1380832.html
微信扫一扫
支付宝扫一扫