使用Pandas和正则表达式高效拆分含混合分隔符的字符串列

程序猿 • 2025年12月14日 12:10:53 • 用户投稿 • 阅读 0

本文旨在解决Pandas数据框中，当一列字符串包含多个由逗号分隔的值，且值本身也使用逗号作为千位分隔符时，如何准确拆分列的问题。我们将探讨传统str.split方法的局限性，并引入一种基于正则表达式的精确拆分策略，确保只在正确的边界进行分割，从而有效提取所需数据。

1. 问题描述与传统方法的局限性

在数据处理过程中，我们经常会遇到需要从一列字符串中提取多个子信息的情况。例如，一个数据列可能包含用逗号分隔的原始价格和折扣价格，但这些价格数字本身又使用了逗号作为千位分隔符。

考虑以下示例数据：

'$1,149.99,$1,249.99'  # 两个价格，都含千位分隔符'$124.99'             # 单个价格'$549.95'             # 单个价格'$149.00,$159.99'     # 两个价格，都含千位分隔符

如果直接使用Pandas的str.split(‘,’)方法进行拆分，例如：

data_phones[['actual_price', 'installment_price']] = data_phones['prices'].str.split(',', n=1, expand=True)

由于数字内部的千位分隔符也是逗号，这种方法会导致错误的拆分。例如，’$1,149.99,$1,249.99′ 可能会被错误地拆分成 [‘$1’, ‘149.99’, ‘$1’, ‘249.99’]，而不是我们期望的 [‘$1,149.99’, ‘$1,249.99’]。这显然无法满足数据清洗的需求。

2. 基于正则表达式的精确拆分策略

为了克服上述问题，我们需要一种更智能的拆分机制，能够区分作为值分隔符的逗号和作为千位分隔符的逗号。正则表达式提供了一种强大的解决方案，允许我们定义更复杂的匹配模式。

核心思想是：只在紧接着一个美元符号（或其他特定模式）的逗号处进行拆分。这可以通过使用正向先行断言 (Positive Lookahead) 来实现。

我们将使用的正则表达式是 “,(?=$)”。

,：匹配一个字面意义上的逗号。(?=$)：这是一个正向先行断言。它表示“匹配前面的逗号，但只有当这个逗号后面紧跟着一个美元符号 $ 时才匹配”。$ 在正则表达式中通常表示行尾，但在这里，它被反斜杠转义，表示匹配字面意义上的美元符号。

通过这种方式，我们确保只有在两个价格字符串之间的逗号才会被识别为分隔符，而价格数字内部的千位分隔符则会被忽略。

3. 示例代码与实现

下面是一个完整的Pandas示例，演示如何使用正则表达式进行精确拆分：

import pandas as pd# 示例数据data = [    '$1,149.99,$1,249.99',    '$124.99',    '$549.95',    '$149.00,$159.99']# 创建DataFramedf = pd.DataFrame(data, columns=['prices'])print("原始数据：")print(df)print("n" + "="*30 + "n")# 使用正则表达式进行拆分# ",(?=$)" 匹配一个逗号，但仅当该逗号后面紧跟着一个美元符号时df_split = df['prices'].str.split(",(?=$)", expand=True)# 为拆分后的列命名df_split.columns = ['actual_price', 'discounted_price']print("拆分后的数据：")print(df_split)

代码解释：

import pandas as pd：导入Pandas库。df = pd.DataFrame(data, columns=[‘prices’])：创建一个包含示例数据的DataFrame。df[‘prices’].str.split(“,(?=$)”, expand=True)：df[‘prices’].str：访问Series的字符串方法。split()：执行字符串拆分操作。”,(?=$)”：我们定义的正则表达式模式。expand=True：将拆分结果扩展为新的DataFrame列，而不是一个Series的列表。

4. 结果分析

运行上述代码，我们将得到以下输出：

原始数据：                   prices0  $1,149.99,$1,249.991             $124.992             $549.953     $149.00,$159.99==============================拆分后的数据：  actual_price discounted_price0    $1,149.99        $1,249.991      $124.99             None2      $549.95             None3      $149.00        $159.99

从输出可以看出，正则表达式成功地将包含两个价格的字符串拆分成了两列：actual_price 和 discounted_price。对于只包含一个价格的行，第二列 discounted_price 则被填充为 None，这符合预期行为。现在，每个价格字符串都保持了其完整的格式，包括千位分隔符。

5. 注意事项与扩展

数据格式依赖性： 本教程中的正则表达式 “,(?=$)” 强烈依赖于价格以美元符号 $ 开头的特定格式。如果您的数据使用不同的货币符号（例如 €、¥）或根本没有货币符号，则需要相应地调整正则表达式。例如，如果价格以欧元符号开头：”,(?=€)”如果价格不含货币符号，但下一个价格总是以数字开头：”,(?=d)” (匹配逗号后紧跟一个数字)。处理 None 值： 拆分后可能出现 None 值（如本例中只有单个价格的情况）。在后续的数据处理中，您可能需要对这些 None 值进行填充、转换或过滤。进一步的数据清洗： 拆分后的价格仍然是字符串类型，并且包含货币符号和逗号。通常，您需要进一步处理这些列，将其转换为数值类型以便进行计算。这通常涉及使用 str.replace() 移除 $ 和 ,，然后使用 astype(float) 转换为浮点数。

6. 总结

在Pandas中处理复杂的字符串拆分任务时，简单的 str.split() 方法往往不足以应对包含混合分隔符的情况。通过结合正则表达式和Pandas的字符串方法，我们可以构建出强大而灵活的数据清洗方案。本文介绍的 “,(?=$)” 正则表达式及其正向先行断言，为在特定上下文（如价格字符串）中精确区分分隔符提供了一个高效的范例，确保了数据拆分的准确性和完整性。掌握这种技术，将有助于您更有效地处理真实世界中复杂多变的数据格式。

以上就是使用Pandas和正则表达式高效拆分含混合分隔符的字符串列的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1372264.html

币数据清洗正则表达式

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python矩阵美观打印：实现列对齐显示

上一篇 2025年12月14日 12:10:51

python中怎么在matplotlib的同一张图上画多条线？

下一篇 2025年12月14日 12:10:55

用户投稿

比特币新手教程比特币交易平台有哪些

比特币是一种去中心化的数字货币，基于区块链技术实现点对点交易，具有匿名性、有限发行和不可篡改等特点；新手可通过交易所购买，P2P交易获得比特币，常用平台包括Binance、OKX和Huobi；交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买，可选择市价单或限价单；比特币存储方式有交易…

程序猿
2026年5月10日
0000
用户投稿

Circle为何在凌晨向Solana新增铸造5亿枚USDC？USDC增发原因与对SOL生态影响深度解析

近日，链上数据显示，Circle 在凌晨向 Solana 链新增铸造了 5亿枚USDC。此次大规模增发引起市场关注，投资者需要了解背后的原因以及对 Solana 生态的潜在影响。 USDC增发原因分析增发 USDC 的主要原因可能包括：满足市场需求：近期 Solana 上交易活动活跃，USDC …

程序猿
2026年5月10日
0000
用户投稿

什么是零知识证明（Zero-Knowledge Proof）？它如何在保护隐私的同时验证信息？

零知识证明通过交互式与非交互式方法实现秘密验证。一、交互式零知识证明中，证明者提出数学命题，验证者发送随机挑战，证明者返回响应，经多轮验证确认真实性而不泄露秘密。二、非交互式零知识证明（NIZK）依赖公共参考串，证明者独立生成证明，验证者用公共参数校验，无需实时交互，适用于区块链场景。三、zk-SN…

程序猿
2026年5月10日
0000
用户投稿

Python正则表达式：处理数字不同情况的替换

本文旨在帮助读者理解和解决在使用Python正则表达式进行数字替换时遇到的问题。通过具体示例，详细解释了如何正确匹配和替换不同格式的数字，避免常见的匹配陷阱，并提供可直接使用的代码示例。掌握这些技巧，能有效提高处理文本数据的效率和准确性。在使用Python的re模块进行字符串替换时，正则表达式的编…

程序猿
2026年5月10日
0000
用户投稿

什么是合约由于流动性不足无法平仓？小币种合约的死亡陷阱

合约因流动性不足无法平仓，表现为买卖订单稀少导致平仓指令难成交，尤其常见于小币种。1、盘口深度浅、交易时段冷清加剧平仓难度；2、低交易量与下降的未平仓量反映小币种流动性枯竭风险；3、应采用限价单分批平仓、切换至高流动性品种对冲、设置宽松止盈止损等策略应对。 binance币安交易所注册入口： AP…

程序猿
2026年5月10日
0000
用户投稿

比特币价格为何波动？深度解析影响BTC的五大因素

近期比特币（btc）价格波动引起市场广泛关注，投资者纷纷寻找影响价格的关键因素。深入分析可以发现，btc价格波动主要受以下五大因素驱动：一、宏观经济与政策影响比特币价格对全球经济数据、货币政策和利率调整高度敏感。例如，美联储降息或量化宽松政策可能推高BTC价格，而紧缩政策则可能导致价格下行。投资…

程序猿
2026年5月10日
1000
用户投稿

币圈合约稳健玩法：资金管理与永续合约赚钱技巧解析

在币圈，合约交易因其杠杆效应和双向交易特性而吸引大量投资者，但风险也较高。本文将解析如何通过资金管理和永续合约操作实现稳健收益，帮助投资者在波动市场中科学操作。永续合约与资金管理核心概念永续合约是一种无到期日的合约交易工具，投资者可通过做多或做空获利。稳健操作的关键在于资金管理：控制每笔交易的投…

程序猿
2026年5月10日
1000
哪里可以买比特币BTC？怎么买？一文了解全过程

对于新手投资者来说，购买比特币（BTC）需要了解完整的操作流程，包括选择交易平台、注册账户、资金充值以及交易执行。本文将详细解析全过程，帮助顺利进入加密市场。一、选择可靠的交易平台投资者应选择知名、安全、交易深度充足的交易所，以确保资金安全和交易顺畅。为了方便快速参与BTC交易并实时监控市场动态…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

Binance官方网站币安Binance最新App下载 v3.8.0官方下载通道

币安（binance）作为全球交易量领先的数字资产服务平台，其官方应用的安全性和功能的及时更新至关重要。本篇指南将为您详细解析如何通过币安官方网站，安全地获取并安装其最新版本的官方app，确保您使用的是官方正版通道，从而保障您的资产安全。官网访问与账户准备币安（Binance）官网入口：币安（…

程序猿
2026年5月10日
2000
用户投稿

Pandas：基于条件和 Groupby 替换列中的特定字符

本文介绍了如何使用 Pandas 库，结合 groupby 函数和字符串操作，根据特定条件替换 DataFrame 列中的字符。通过累积计数和字典映射，能够灵活地修改列中的特定部分，并根据替换值调整相关文本，实现数据清洗和转换的目的。在数据分析和处理中，经常需要根据特定条件修改 DataFrame…

程序猿
2026年5月10日
0000
用户投稿

使用JavaScript正则表达式验证DFA字符串

本文旨在探讨如何高效地使用javascript的内置正则表达式功能来验证符合特定确定性有限自动机（dfa）规则的字符串。我们将对比手动构建状态转换表的复杂性与利用正则表达式的简洁与强大，并通过具体代码示例展示如何将dfa的正则表达式直接应用于字符串验证，从而实现更可靠、易维护的解决方案。确定性有限…

程序猿
2026年5月10日
0000
用户投稿

高效处理Selenium抓取中的特殊HTML字符：JavaScript注入法

本教程旨在解决使用Selenium的.text方法抓取网页内容时，因保留不可见特殊HTML字符（如连字符、非断行空格等）导致的数据清洗难题。文章核心内容是介绍如何通过driver.execute_script方法注入JavaScript代码，在提取文本之前直接从DOM中移除这些包含特殊字符的HTML…

程序猿
2026年5月10日
0000
用户投稿

PHP中验证Base64编码字符串有效性的实用指南

本教程将详细介绍在PHP中如何有效验证Base64编码字符串的有效性，特别是针对常见的数据URI格式（如data:image/jpeg;base64,…）。我们将探讨利用base64_decode和base64_encode函数进行往返验证的核心技术，并提供实用的代码示例及重要注意事项，…

程序猿
2026年5月10日
0000
用户投稿

C++ 如何替换字符串中的部分内容_C++ 替换字符串内容的常用技巧

答案：C++中常用字符串替换方法包括使用find与replace循环替换所有匹配项，示例代码展示如何通过while循环查找并更新位置实现全局替换；单次替换只需查找第一个匹配并执行一次replace操作；若需忽略大小写，须自定义查找函数如findIgnoreCase进行字符转小写比较；对于模式匹配类替…

程序猿
2026年5月10日
1000
用户投稿

Nginx 子目录应用URI重写与参数传递教程

本教程详细阐述了如何在Nginx中为PHP应用实现子目录URI重写，特别是如何从请求URI中剥离子目录路径并将其余部分作为参数传递给主入口文件。通过try_files和rewrite指令的组合，本教程提供了一种高效且准确的解决方案，以替代Apache .htaccess的RewriteRule功能，…

程序猿
2026年5月10日
0000
用户投稿

python如何将列表转换为字符串_python列表与字符串相互转换技巧

将列表转换为字符串需用join()方法，确保元素均为字符串类型；含非字符串元素时应先用列表推导式结合str()转换。在Python中，将列表转换为字符串最常见且高效的方式是使用字符串的 join() 方法；而将字符串转换为列表，则主要依赖于字符串的 split() 方法，或者针对特定需求使用 li…

程序猿
2026年5月10日
2000
用户投稿

以太坊3.0升级解读：2025年POS机制带来的影响与机遇

预计到2025年，以太坊在权益证明（pos）机制下的持续升级，将主要围绕实现大规模扩容、增强网络去中心化和可持续性展开。这不仅会重塑以太坊的底层架构，更将为整个生态系统，尤其是加密货币交易所、开发者及投资者，带来一系列深刻的影响与前所未有的机遇。 2025年虚拟货币官网app地址：币安：欧易：…

程序猿
2026年5月10日
3000
用户投稿

Solana生态系统持续发展，机构持仓量增加

Solana（SOL）生态系统持续发展，吸引了越来越多的机构投资者参与，机构持仓量逐步增加，占据市场的重要份额。随着DeFi、NFT及其他区块链应用的拓展，SOL的价值支撑逐渐增强。 Solana生态发展与机构布局 1. 生态扩展：Solana生态系统持续吸引新的项目上线，涵盖DeFi、NFT及La…

程序猿
2026年5月10日
0000
用户投稿

欧易OKX交易平台官网(无需跳转) OKX官方认证手机App下载

欧易okx是一个全球顶尖的数字资产服务平台，以其全面的产品线、强大的交易引擎和卓越的安全性而备受信赖。本篇指南将为您提供直达欧易okx官方网站的入口，并详述其官方认证应用的下载与安装流程，旨在帮助您安全、高效地开启数字资产之旅。本文提供的链接均为官方页面，可放心点击。币安（Binance）官网入口…

程序猿
2026年5月10日
1000
用户投稿

官方41币是什么？如何在Solana上购买41官方币？购买指南

官方41币是Solana链上高风险迷因代币，需用Phantom等账户准备SOL并经Jupiter等DEX兑换，全程自主掌控私钥与助记词，交易不可逆。官方41币是在solana网络上的社区驱动型数字资产的一种部署，通常被视为一种迷因（meme）代币。获取它需要准备一个兼容solana的数字资产容器，…

程序猿
2026年5月10日
1000