
本文介绍如何使用 Pandas 处理 DataFrame 中多个列包含相同分隔符的情况,并根据分隔符将行进行拆分。重点在于避免拆分后引入不必要的 NaN 值,并确保其他未拆分列的数据得到正确填充。通过结合 groupby 和 ffill 方法,可以高效地实现这一目标,使得数据处理流程更加简洁和高效。
在数据处理过程中,经常会遇到需要根据特定分隔符拆分 DataFrame 行的情况,尤其是当多个列都包含该分隔符时。一种常见的错误做法是直接使用 str.split 和 stack 方法,这会导致未拆分的列出现 NaN 值。本文将介绍一种更有效的方法,使用 groupby 和 ffill 避免 NaN 值的产生,并保证数据的完整性。
问题描述
假设我们有一个 DataFrame,其中某些行的多个列包含相同数量的分隔符(例如 ;)。我们的目标是根据这些分隔符拆分行,同时保持其他列的数据不变。例如:
import pandas as pddata = {'ID': [34, 35], 'Name': ['Alt-Tempelhof Ecke Tempelhofer Damm', 'Alt-Wittenau'], 'Type': ['bus', 'bus'], 'Lines': ['A77,A68,A76', 'A62 ; A15,A21'], 'Coordinates': ['52.465964306830664, 13.38558297633417', '52.58972877186178, 13.334169215342472 ; 52.59166508975595, 13.326326895395114'], 'Extra': [None, 'Alt-Wittenau Ecke Oranienburger Straße ; Alt-Wittenau Ecke Eichborndamm']}df = pd.DataFrame(data)print(df)
输出:
ID Name Type Lines 34 Alt-Tempelhof Ecke Tempelhofer Damm bus A77,A68,A761 35 Alt-Wittenau bus A62 ; A15,A21 Coordinates Extra0 52.465964306830664, 13.38558297633417 None1 52.58972877186178, 13.334169215342472 ; 52.59166508975595, 13.326326895395114 Alt-Wittenau Ecke Oranienburger Straße ; Alt-Wittenau Ecke Eichborndamm
解决方案
使用 str.split 和 stack 拆分列
首先,对 DataFrame 中的每一列使用 str.split(‘;’, expand=True) 将包含分隔符的列拆分成多列,然后使用 stack() 将这些列堆叠起来。
split_df = pd.concat([df[col].astype(str).str.split(';', expand=True).stack().str.strip() for col in df.columns], axis=1, keys=df.columns)
使用 groupby 和 ffill 填充缺失值
关键在于使用 groupby(level=0).ffill()。groupby(level=0) 将数据按照原始 DataFrame 的索引进行分组,然后 ffill() 方法在每个分组内向前填充缺失值。这确保了在拆分行时,其他列的数据能够正确地复制到新的行中。
split_df = split_df.groupby(level=0).ffill().reset_index(drop=True)
完整代码示例
import pandas as pddata = {'ID': [34, 35], 'Name': ['Alt-Tempelhof Ecke Tempelhofer Damm', 'Alt-Wittenau'], 'Type': ['bus', 'bus'], 'Lines': ['A77,A68,A76', 'A62 ; A15,A21'], 'Coordinates': ['52.465964306830664, 13.38558297633417', '52.58972877186178, 13.334169215342472 ; 52.59166508975595, 13.326326895395114'], 'Extra': [None, 'Alt-Wittenau Ecke Oranienburger Straße ; Alt-Wittenau Ecke Eichborndamm']}df = pd.DataFrame(data)split_df = pd.concat([df[col].astype(str).str.split(';', expand=True).stack().str.strip() for col in df.columns], axis=1, keys=df.columns)split_df = split_df.groupby(level=0).ffill().reset_index(drop=True)print(split_df)
输出:
ID Name Type Lines 34 Alt-Tempelhof Ecke Tempelhofer Damm bus A77,A68,A761 35 Alt-Wittenau bus A622 35 Alt-Wittenau bus A15,A21 Coordinates Extra0 52.465964306830664, 13.38558297633417 None1 52.58972877186178, 13.334169215342472 Alt-Wittenau Ecke Oranienburger Straße2 52.59166508975595, 13.326326895395114 Alt-Wittenau Ecke Eichborndamm
注意事项
确保所有列的数据类型一致,可以使用 astype(str) 将所有列转换为字符串类型。str.strip() 用于去除拆分后的字符串中的空格,保证数据的清洁性。如果你的分隔符不是 ;,请相应地修改 str.split() 中的分隔符参数。
总结
通过结合 str.split、stack、groupby 和 ffill 方法,我们可以高效地处理 DataFrame 中包含相同分隔符的多列,并根据分隔符将行进行拆分,同时避免 NaN 值的产生,保证数据的完整性。这种方法在数据清洗和预处理过程中非常有用,能够提高数据处理的效率和准确性。
以上就是使用 Pandas 分割 DataFrame 中包含相同分隔符的多列的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1364488.html
微信扫一扫
支付宝扫一扫