Pandas DataFrame中基于字符串数字的高级条件赋值技巧

Pandas DataFrame中基于字符串数字的高级条件赋值技巧

本文深入探讨了在Pandas DataFrame中,如何根据现有列(如字符串中的数字部分)的特定条件,高效地创建或更新新列。文章将详细介绍如何结合str.extract、pd.cut和np.log10等工具,实现基于数值范围或数字位数的高级条件赋值,从而提升数据处理的灵活性和效率。

在数据分析和处理过程中,我们经常需要根据dataframe中某一列的复杂条件来生成或更新另一列的值。例如,从一个包含混合字符串和数字的列中提取数字,并根据这些数字的特点(如数值大小范围或数字的位数)进行分类赋值。本教程将展示两种高效且专业的pandas解决方案来解决这类问题。

初始数据准备

首先,我们构建一个示例DataFrame,它包含Server和Port两列。Port列是一个字符串,其中包含”Ethernet”前缀和随后的一个或多个数字。

import pandas as pdimport numpy as npdata = {    'Server': ['Ser123', 'Ser123', 'Ser123', 'Ser123', 'Serabc', 'Serabc', 'Serabc', 'Serabc'],    'Port': ['Ethernet3', 'Ethernet4', 'Ethernet12', 'Ethernet567', 'Ethernet2', 'Ethernet34', 'Ethernet458', 'Ethernet5689']}df = pd.DataFrame(data)print("原始DataFrame:")print(df)

输出:

原始DataFrame:   Server          Port0  Ser123     Ethernet31  Ser123     Ethernet42  Ser123    Ethernet123  Ser123   Ethernet5674  Serabc     Ethernet25  Serabc    Ethernet346  Serabc   Ethernet4587  Serabc  Ethernet5689

我们的目标是创建一个名为function_val的新列,其值将根据Port列中数字部分的特性来决定。具体规则如下:

如果数字是1位(例如Ethernet3),function_val为’5k’。如果数字是2位(例如Ethernet12),function_val为’10k’。如果数字是3位或更多(例如Ethernet567),function_val为’20k’。

解决方案一:基于数值范围的分类赋值 (str.extract + pd.cut)

这种方法适用于根据提取出的数字的数值大小范围进行分类。

提取数字: 使用Series.str.extract()结合正则表达式r'(d+)$’来提取Port列末尾的数字。(d+)捕获一个或多个数字,$匹配字符串的末尾。expand=False确保返回一个Series而不是DataFrame。类型转换: 将提取出的字符串数字转换为整数类型,以便进行数值比较。区间划分与赋值: 使用pd.cut()函数将数字划分到预定义的区间(bins)中,并为每个区间分配相应的标签(labels)。

# 定义数值区间和对应的标签bins = [0, 10, 100, np.inf] # 0 < x <= 10, 10 < x <= 100, 100 < x <= inflabels = ['5k', '10k', '20k']# 提取数字,转换为整数,并使用pd.cut进行分类赋值df['function_val_cut'] = pd.cut(    df['Port'].str.extract(r'(d+)$', expand=False).astype(int),    bins=bins,    labels=labels,    right=True # 默认右闭合,即 (bin_i, bin_i+1])print("n使用pd.cut分类后的DataFrame:")print(df)

输出:

使用pd.cut分类后的DataFrame:   Server          Port function_val_cut0  Ser123     Ethernet3               5k1  Ser123     Ethernet4               5k2  Ser123    Ethernet12              10k3  Ser123   Ethernet567              20k4  Serabc     Ethernet2               5k5  Serabc    Ethernet34              10k6  Serabc   Ethernet458              20k7  Serabc  Ethernet5689              NaN

注意事项:

bins定义了区间的边界。例如,[0, 10, 100, np.inf]会创建三个区间:(0, 10], (10, 100], (100, inf)。right=True(默认值)表示区间是右闭合的,即bins[i]到bins[i+1]的区间包含bins[i+1]但不包含bins[i]。在上述示例中,Ethernet5689中的5689超出了[0, 10, 100, np.inf]定义的最高区间,因此被赋值为NaN。如果需要处理这种情况,可以调整bins的定义或在pd.cut之后进行进一步处理。

解决方案二:基于数字位数的条件赋值 (str.extract + np.log10 + np.ceil + map)

这种方法适用于根据提取出的数字的位数进行分类。

提取数字和类型转换: 与方法一相同,提取数字并转换为整数。计算位数: 利用数学函数np.log10和np.ceil来计算一个正整数的位数。对于一个正整数N,其位数为ceil(log10(N+1))。例如,N=3 (log10(4) ≈ 0.6) -> ceil(0.6) = 1位。例如,N=12 (log10(13) ≈ 1.1) -> ceil(1.1) = 2位。例如,N=567 (log10(568) ≈ 2.7) -> ceil(2.7) = 3位。映射赋值: 使用Series.map()函数将计算出的位数映射到预定义的标签字典。

# 定义位数和对应的标签映射labels_by_digits = {1: '5k', 2: '10k', 3: '20k', 4: '20k'} # 假设4位也对应20k# 提取数字,转换为整数,计算位数,并使用map进行赋值df['function_val_digits'] = (    np.ceil(np.log10(df['Port'].str.extract(r'(d+)$', expand=False).astype(int) + 1))    .map(labels_by_digits))print("n使用位数映射分类后的DataFrame:")print(df)

输出:

使用位数映射分类后的DataFrame:   Server          Port function_val_cut function_val_digits0  Ser123     Ethernet3               5k                  5k1  Ser123     Ethernet4               5k                  5k2  Ser123    Ethernet12              10k                 10k3  Ser123   Ethernet567              20k                 20k4  Serabc     Ethernet2               5k                  5k5  Serabc    Ethernet34              10k                 10k6  Serabc   Ethernet458              20k                 20k7  Serabc  Ethernet5689              NaN                 20k

注意事项:

labels_by_digits字典需要包含所有可能出现的位数及其对应的标签。如果计算出的位数在字典中没有对应的键,map函数将返回NaN。这种方法对于严格按照数字位数进行分类的场景非常有效。

总结与最佳实践

本文展示了在Pandas DataFrame中根据复杂条件(特别是从字符串中提取数字并基于其数值或位数)创建新列的两种强大方法:

str.extract + pd.cut: 适用于根据数值的大小范围进行分类。当需要将连续的数值数据离散化到预定义区间时,这是一个理想的选择。str.extract + np.log10 + np.ceil + map: 适用于根据数字的位数进行分类。当分类逻辑与数字的长度而非具体数值范围更相关时,此方法更为直接和高效。

在实际应用中,选择哪种方法取决于具体的业务逻辑和分类需求。无论哪种方法,以下几点都是通用的最佳实践:

正则表达式的精准性: 确保str.extract中的正则表达式能够准确无误地捕获目标数据。数据类型转换: 在进行数值计算或比较之前,务必将提取出的字符串数据转换为正确的数值类型(如int或float)。错误处理: 考虑正则表达式未能匹配、类型转换失败或数值超出预设范围/映射字典的情况,并根据需要添加错误处理逻辑(例如,使用fillna()处理NaN值)。可读性与维护性: 对于复杂的条件逻辑,将bins、labels或映射字典定义为单独的变量,可以提高代码的可读性和可维护性。

通过掌握这些Pandas技巧,您可以更高效、更灵活地处理和转换DataFrame中的数据,满足各种复杂的数据处理需求。

以上就是Pandas DataFrame中基于字符串数字的高级条件赋值技巧的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1376863.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
如何通过不可变数据结构提升React等框架的应用性能?
上一篇 2026年5月10日 11:10:59
Go语言中切片到数组的转换:理解类型差异与实现策略
下一篇 2026年5月10日 11:11:03

相关推荐

  • Golang测试中如何跳过某些用例 讲解t.Skip()的应用场景

    Golang测试中如何跳过某些用例 讲解t.Skip()的应用场景Golang测试中如何跳过某些用例 讲解t.Skip()的应用场景Golang测试中如何跳过某些用例 讲解t.Skip()的应用场景Golang测试中如何跳过某些用例 讲解t.Skip()的应用场景

    在golang测试中,可以使用t.skip()、t.skipf()和t.skipnow()跳过测试用例。1. t.skip()用于标记当前测试为跳过并输出信息;2. t.skipf()支持格式化字符串输出原因;3. t.skipnow()立即终止测试执行。跳过测试的原因包括功能未完成、环境依赖、已知…

    2026年5月10日 用户投稿
    300
  • C++20的同步原语latch和barrier怎么用_C++多线程编程中的栅栏同步机制

    latch是一次性同步工具,用于等待计数归零后释放所有线程,适用于单次等待场景;barrier支持重复使用,允许多轮同步,适合周期性或分阶段的并行任务。 在C++20中,latch 和 barrier 是新增的两种同步原语,用于简化多线程编程中的等待逻辑。它们都属于“栅栏”类同步机制,但用途和行为有…

    2026年5月10日
    000
  • Go语言中高效读取大尺寸UTF-8字符串:使用bufio优化输入操作

    在Go语言中处理大尺寸UTF-8字符串输入时,fmt.Scanf因其非缓冲特性和解析开销可能导致显著的性能瓶颈。本文将介绍如何利用bufio包实现高效、纯Go的字符串读取方案。通过使用bufio.NewReader及其方法,如ReadString,可以大幅提升输入操作的速度,甚至超越C语言scanf…

    2026年5月10日
    000
  • Go语言GOPATH配置与常见问题解决指南

    本文详细阐述了Go语言中GOPATH环境变量的正确配置方法,旨在解决go env不显示GOPATH、go install因权限不足或路径错误而失败等常见问题。通过创建标准Go工作区、正确设置系统环境变量并进行有效验证,确保Go工具链能够准确识别并利用GOPATH,从而实现高效的包管理与项目开发。 1…

    2026年5月10日
    000
  • 如何使用正则表达式从XML中提取特定标签内容?

    使用正则表达式提取xml内容存在局限性,不推荐用于复杂场景。1. 难以处理嵌套结构:正则表达式无法可靠匹配多层嵌套标签;2. 容易出错:xml格式的微小变化可能导致匹配失败;3. 可读性差:复杂正则难以理解和维护;4. 不支持xml所有特性:如命名空间、cdata等难以正确处理。相比之下,使用xml…

    2026年5月10日
    000
  • Golang并发编程错误调试与日志分析

    答案:Go并发调试需结合竞态检测、结构化日志、pprof与trace工具及压力测试,系统性排查竞态、死锁等问题。启用-race可捕获内存冲突,结构化日志带唯一标识便于追踪,pprof分析goroutine阻塞,trace可视化调度时序,多核测试和Gosched模拟极端场景,预防线上故障。 Go语言的…

    2026年5月10日
    000
  • Tauri+Vue3应用中:如何正确解析本地二进制图像文件?

    Tauri、Vue3应用中解析本地二进制图像文件的解决方案 本文探讨在使用Tauri、Vue3和markdown-it构建的Markdown解析器中,由于安全策略限制导致本地图片无法显示的问题,并提供最终解决方案。 问题:该工具使用v-html渲染Markdown文件中的图片(相对路径)。开发模式下…

    2026年5月10日
    000
  • 如何创建HTML文件?用什么软件打开HTML格式?

    如何创建HTML文件?用什么软件打开HTML格式?如何创建HTML文件?用什么软件打开HTML格式?如何创建HTML文件?用什么软件打开HTML格式?如何创建HTML文件?用什么软件打开HTML格式?

    创建html文件需用纯文本编辑器编写符合规范的代码并保存为.html或.htm扩展名;2. 打开html文件可用任何现代浏览器直接渲染;3. 基本结构包括声明、根元素、 元数据区和内容区;4. 常见问题如文件扩展名错误、字符编码不匹配、路径错误、语法错误等可通过检查文件名、统一使用utf-8编码、验…

    2026年5月10日 用户投稿
    000
  • HTML评分标签怎么添加_产品评分结构化数据实现

    答案:添加HTML评分标签需使用Schema.org的JSON-LD格式,核心类型包括Product、AggregateRating和Review。将包含ratingValue和reviewCount的AggregateRating嵌套在Product中,可实现搜索结果中的富媒体摘要展示,确保数据与…

    2026年5月10日
    000
  • 如何通过不可变数据结构提升React等框架的应用性能?

    使用不可变数据结构可提升React性能,因它确保状态更新可预测、避免引用共享导致的bug;通过concat、扩展运算符等创建新对象,使PureComponent和React.memo的浅比较更高效;每次更新生成新状态快照,便于调试、回溯与撤销;结合useMemo、useCallback可稳定依赖项,…

    2026年5月10日
    000
  • 响应式布局中Flex容器内图片与文本错位问题的解决方案

    本文旨在解决在响应式网页设计中,当图片和文本并排置于Flex容器内时,由于不当的max-width设置导致的元素错位问题。通过调整Flex子元素的max-width以确保它们能和谐共存,并结合object-fit属性优化图片缩放效果,从而实现适配移动设备的流畅布局。 理解Flexbox布局与响应式图…

    2026年5月10日
    200
  • CEX充提币:中心化交易所使用技巧

    在加密货币交易的浩瀚宇宙中,选择一家可靠、高效且安全便捷的中心化交易所(cex)是每位投资者迈向成功的关键一步。尤其对于初入加密世界的新手而言,cex不仅是进入市场的大门,更是其资产的守护者。而对于经验丰富的交易者来说,深入掌握cex的充提币技巧,则意味着能够更灵活地调配资金,抓住稍纵即逝的市场机遇…

    用户投稿 2026年5月10日
    100
  • PHP缓存环境配置_PHP缓存环境配置处理方法

    启用OPcache、APCu、Redis及Nginx FastCGI缓存可显著提升PHP性能:1. 开启OPcache并配置内存与校验参数;2. 安装APCu用于用户数据缓存;3. 部署Redis实现分布式缓存;4. 配置Nginx FastCGI缓存减少PHP重复执行,最终加快页面响应并降低服务器…

    2026年5月10日
    000
  • c++的static关键字有什么作用_c++ static成员变量与函数

    static关键字用于声明类的静态成员变量和函数,实现数据共享与类级操作。1. 静态成员变量属于类而非对象,所有实例共享同一副本,需在类外定义初始化(除非内联或constexpr),可通过类名直接访问;2. 静态成员函数无this指针,仅访问静态成员,可作为工具函数或工厂方法通过类名调用;3. 局部…

    2026年5月10日
    200
  • PHP sprintf 函数中属性值提取与格式化指南

    本文旨在解决在php中使用`sprintf`函数时,将完整的html属性字符串误用于需要单一属性值(如类名)的场景。通过分析常见错误,我们展示了如何直接从数组中提取目标属性的原始值,并结合空合并运算符`??`提升代码健壮性,从而避免输出格式不符或潜在的错误,确保`sprintf`正确生成预期html…

    2026年5月10日
    000
  • 深入理解Python sys.argv:命令行参数处理与常见错误解析

    本文详细解析python中`sys.argv`模块在处理命令行参数时的核心机制,特别是其长度计算和索引规则。我们将通过示例代码阐明`sys.argv[0]`代表脚本名称,而后续元素才是用户提供的参数,从而纠正常见的参数数量判断错误。同时,提供实用的调试技巧和更专业的参数解析方案,帮助开发者有效管理p…

    2026年5月10日
    000
  • PHP字符串关键字高亮与多重匹配策略

    本教程旨在解决在php中对字符串中的多个关键字进行高亮显示时遇到的常见问题,特别是当关键字存在重叠或包含关系时。文章将详细介绍如何利用`preg_replace`结合正则表达式、`preg_quote`进行关键字转义,并通过对关键字列表进行长度排序来确保所有目标关键字(包括包含关系的长短关键字)都能…

    2026年5月10日
    000
  • 组件化开发:用C++20 Modules重构百万行代码库

    组件化开发:用C++20 Modules重构百万行代码库组件化开发:用C++20 Modules重构百万行代码库组件化开发:用C++20 Modules重构百万行代码库组件化开发:用C++20 Modules重构百万行代码库

    使用c++++20 modules重构百万行代码库的目标是提升代码清晰度、编译速度和维护效率。1. c++20 modules解决了传统头文件的编译慢、命名冲突和宏污染问题,通过“引用”方式智能处理依赖。2. 模块划分应遵循高内聚、低耦合、职责单一和可复用原则,按业务功能拆分如网络通信、数据处理等模…

    2026年5月10日 用户投稿
    000
  • PHP 工厂模式实战:避免构造函数陷阱与正确实现

    本文深入探讨php中工厂模式的正确实现,重点指出将对象创建逻辑置于构造函数中的常见误区,这会导致返回`null`或不期望的对象实例。教程将详细解释php构造函数的工作原理,并演示如何通过使用静态方法来优雅地构建工厂,确保模式的有效性和代码的健壮性。 引言:理解工厂模式 工厂模式(Factory Pa…

    2026年5月10日
    200
  • Golang使用os.FileInfo获取文件属性实践

    答案:os.FileInfo接口用于获取文件元信息,通过os.Stat()获取文件属性,结合os.ReadDir()可高效遍历目录,利用Mode()可判断权限与文件类型,适用于文件管理等场景。 在Go语言中,os.FileInfo 是一个接口,用于描述文件的元信息,比如文件名、大小、权限、修改时间等…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信