
本文档介绍了如何使用 Pandas 和正则表达式高效地将 DataFrame 中的一列按照特定分隔符(’ – ‘)和全大写字母组合进行拆分。我们将探讨两种主要方法:一种是使用 Pandas 内置的字符串操作 .str.extract(),另一种是结合使用 re 模块进行更灵活的模式匹配。通过这些方法,你可以轻松地将包含复杂模式的列拆分为多个有意义的列,从而简化数据分析和处理流程。
使用 Pandas 的向量化字符串操作
Pandas 提供了强大的向量化字符串操作,可以高效地处理 DataFrame 中的文本数据。以下是如何使用 .str.extract() 和正则表达式来拆分列的示例:
import pandas as pddf = pd.DataFrame({ 'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],})# 正则表达式模式pattern = r'^(.*?) - ([A-Zs-]+)$'# 提取分组到两个新列df[['First', 'Last']] = df['Value'].str.extract(pattern)# 显示 DataFrameprint(df)
代码解释:
导入 Pandas: import pandas as pd 导入 Pandas 库,用于数据处理。创建 DataFrame: 创建一个包含示例数据的 DataFrame。正则表达式模式: pattern = r’^(.*?) – ([A-Zs-]+)$’ 定义了用于拆分字符串的正则表达式模式。这个模式的含义如下:^: 匹配字符串的开头。(.*?): 匹配任意字符(非贪婪模式),并将其捕获到第一个分组中。-: 匹配分隔符 ” – “。([A-Zs-]+): 匹配由大写字母、空格或连字符组成的字符串,并将其捕获到第二个分组中。$: 匹配字符串的结尾。提取分组: df[[‘First’, ‘Last’]] = df[‘Value’].str.extract(pattern) 使用 .str.extract() 方法和定义的正则表达式模式从 ‘Value’ 列中提取分组,并将结果分别存储到 ‘First’ 和 ‘Last’ 列中。显示 DataFrame: print(df) 打印修改后的 DataFrame,显示拆分后的结果。
输出:
Value First Last0 Juan-Diva - HOLLS Juan-Diva HOLLS1 Carlos - George - ESTE BAN Carlos - George ESTE BAN2 Javier Plain - Hotham Ham - ALPINE Javier Plain - Hotham Ham ALPINE3 Yul - KONJ KOL MON Yul KONJ KOL MON
此代码使用正则表达式 r’^(.*?) – ([A-Zs-]+)$’ 和 .str.extract()。该模式旨在将字符串拆分为两部分:
^(.*?) 捕获字符串开头到最后一个 ” – ” 之间的内容。([A-Zs-]+)$ 捕获字符串的最后一段,该段必须仅包含大写字母、空格或连字符。
此模式确保拆分发生在最后一个 ” – ” 之后,后跟一系列大写字符、空格或连字符的字符串。
使用 re 模块的替代方法
虽然 Pandas 的向量化字符串操作通常更有效,但 re 模块提供了更大的灵活性。以下是如何使用 re 模块实现相同结果的示例:
import pandas as pdimport redf = pd.DataFrame({ 'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],})# 用于拆分字符串的函数def split_value(s): # 查找最后一次出现的 ' - ' 后跟大写字母 match = re.search(r'^(.*?) - ([A-Zs-]+)$', s) if match: return match.group(1), match.group(2) else: return s, None# 将函数应用于 'Value' 列中的每一行df[['First', 'Last']] = df['Value'].apply(lambda x: split_value(x)).tolist()print(df)
代码解释:
导入库: 导入 pandas 用于数据处理和 re 用于正则表达式操作。创建 DataFrame: 创建一个包含示例数据的 DataFrame。定义 split_value 函数:此函数接受一个字符串 s 作为输入。它使用 re.search 函数查找与正则表达式 r’^(.*?) – ([A-Zs-]+)$’ 匹配的模式。如果找到匹配项(if match:):match.group(1) 返回第一个捕获组的内容(在 ” – ” 之前的部分)。match.group(2) 返回第二个捕获组的内容(由大写字母、空格或连字符组成的部分)。函数返回这两个组的元组。如果没有找到匹配项(else:):函数返回原始字符串 s 和 None 的元组。应用函数并创建新列:df[‘Value’].apply(lambda x: split_value(x)) 将 split_value 函数应用于 ‘Value’ 列中的每个值。lambda x: split_value(x) 是一个匿名函数,它接受一个值 x 并将其传递给 split_value 函数。.tolist() 将 apply 方法的结果(一系列元组)转换为列表。df[[‘First’, ‘Last’]] = … 将列表中的元组分配给新的 ‘First’ 和 ‘Last’ 列。
输出:
Value First Last0 Juan-Diva - HOLLS Juan-Diva HOLLS1 Carlos - George - ESTE BAN Carlos - George ESTE BAN2 Javier Plain - Hotham Ham - ALPINE Javier Plain - Hotham Ham ALPINE3 Yul - KONJ KOL MON Yul KONJ KOL MON
我使用 re.search 函数来根据指定的模式查找匹配项。模式 r’^(.*?) – ([A-Zs-]+)$’ 与上面使用的模式相同。如果找到匹配项,该函数将返回字符串的两个部分;否则,它将返回原始字符串和 ‘Last’ 列的 None。然后将结果转换为列表并分配给新列 ‘First’ 和 ‘Last’。
注意事项和总结
性能: 对于大型数据集,Pandas 的向量化字符串操作通常比使用 re 模块更有效。但是,对于更复杂的模式匹配,re 模块可能更灵活。正则表达式: 掌握正则表达式对于文本数据处理至关重要。确保理解所使用的模式,并根据需要进行调整。错误处理: 在实际应用中,需要考虑错误处理。例如,如果某些行的格式与预期不符,则需要添加适当的逻辑来处理这些情况。数据清洗: 在拆分列之前,可能需要对数据进行清洗,例如删除前导或尾随空格。
总而言之,本文档介绍了两种使用 Pandas 和正则表达式拆分 DataFrame 中列的方法。通过选择合适的方法并根据需要调整正则表达式,你可以高效地处理和转换文本数据。
以上就是使用 Pandas 和正则表达式拆分包含分隔符和全大写值的列的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1376487.html
微信扫一扫
支付宝扫一扫