Pandas DataFrame中基于字符串数字的高级条件赋值技巧

Pandas DataFrame中基于字符串数字的高级条件赋值技巧

本文深入探讨了在Pandas DataFrame中,如何根据现有列(如字符串中的数字部分)的特定条件,高效地创建或更新新列。文章将详细介绍如何结合str.extract、pd.cut和np.log10等工具,实现基于数值范围或数字位数的高级条件赋值,从而提升数据处理的灵活性和效率。

在数据分析和处理过程中,我们经常需要根据dataframe中某一列的复杂条件来生成或更新另一列的值。例如,从一个包含混合字符串和数字的列中提取数字,并根据这些数字的特点(如数值大小范围或数字的位数)进行分类赋值。本教程将展示两种高效且专业的pandas解决方案来解决这类问题。

初始数据准备

首先,我们构建一个示例DataFrame,它包含Server和Port两列。Port列是一个字符串,其中包含”Ethernet”前缀和随后的一个或多个数字。

import pandas as pdimport numpy as npdata = {    'Server': ['Ser123', 'Ser123', 'Ser123', 'Ser123', 'Serabc', 'Serabc', 'Serabc', 'Serabc'],    'Port': ['Ethernet3', 'Ethernet4', 'Ethernet12', 'Ethernet567', 'Ethernet2', 'Ethernet34', 'Ethernet458', 'Ethernet5689']}df = pd.DataFrame(data)print("原始DataFrame:")print(df)

输出:

原始DataFrame:   Server          Port0  Ser123     Ethernet31  Ser123     Ethernet42  Ser123    Ethernet123  Ser123   Ethernet5674  Serabc     Ethernet25  Serabc    Ethernet346  Serabc   Ethernet4587  Serabc  Ethernet5689

我们的目标是创建一个名为function_val的新列,其值将根据Port列中数字部分的特性来决定。具体规则如下:

如果数字是1位(例如Ethernet3),function_val为’5k’。如果数字是2位(例如Ethernet12),function_val为’10k’。如果数字是3位或更多(例如Ethernet567),function_val为’20k’。

解决方案一:基于数值范围的分类赋值 (str.extract + pd.cut)

这种方法适用于根据提取出的数字的数值大小范围进行分类。

提取数字: 使用Series.str.extract()结合正则表达式r'(d+)$’来提取Port列末尾的数字。(d+)捕获一个或多个数字,$匹配字符串的末尾。expand=False确保返回一个Series而不是DataFrame。类型转换: 将提取出的字符串数字转换为整数类型,以便进行数值比较。区间划分与赋值: 使用pd.cut()函数将数字划分到预定义的区间(bins)中,并为每个区间分配相应的标签(labels)。

# 定义数值区间和对应的标签bins = [0, 10, 100, np.inf] # 0 < x <= 10, 10 < x <= 100, 100 < x <= inflabels = ['5k', '10k', '20k']# 提取数字,转换为整数,并使用pd.cut进行分类赋值df['function_val_cut'] = pd.cut(    df['Port'].str.extract(r'(d+)$', expand=False).astype(int),    bins=bins,    labels=labels,    right=True # 默认右闭合,即 (bin_i, bin_i+1])print("n使用pd.cut分类后的DataFrame:")print(df)

输出:

使用pd.cut分类后的DataFrame:   Server          Port function_val_cut0  Ser123     Ethernet3               5k1  Ser123     Ethernet4               5k2  Ser123    Ethernet12              10k3  Ser123   Ethernet567              20k4  Serabc     Ethernet2               5k5  Serabc    Ethernet34              10k6  Serabc   Ethernet458              20k7  Serabc  Ethernet5689              NaN

注意事项:

bins定义了区间的边界。例如,[0, 10, 100, np.inf]会创建三个区间:(0, 10], (10, 100], (100, inf)。right=True(默认值)表示区间是右闭合的,即bins[i]到bins[i+1]的区间包含bins[i+1]但不包含bins[i]。在上述示例中,Ethernet5689中的5689超出了[0, 10, 100, np.inf]定义的最高区间,因此被赋值为NaN。如果需要处理这种情况,可以调整bins的定义或在pd.cut之后进行进一步处理。

解决方案二:基于数字位数的条件赋值 (str.extract + np.log10 + np.ceil + map)

这种方法适用于根据提取出的数字的位数进行分类。

提取数字和类型转换: 与方法一相同,提取数字并转换为整数。计算位数: 利用数学函数np.log10和np.ceil来计算一个正整数的位数。对于一个正整数N,其位数为ceil(log10(N+1))。例如,N=3 (log10(4) ≈ 0.6) -> ceil(0.6) = 1位。例如,N=12 (log10(13) ≈ 1.1) -> ceil(1.1) = 2位。例如,N=567 (log10(568) ≈ 2.7) -> ceil(2.7) = 3位。映射赋值: 使用Series.map()函数将计算出的位数映射到预定义的标签字典。

# 定义位数和对应的标签映射labels_by_digits = {1: '5k', 2: '10k', 3: '20k', 4: '20k'} # 假设4位也对应20k# 提取数字,转换为整数,计算位数,并使用map进行赋值df['function_val_digits'] = (    np.ceil(np.log10(df['Port'].str.extract(r'(d+)$', expand=False).astype(int) + 1))    .map(labels_by_digits))print("n使用位数映射分类后的DataFrame:")print(df)

输出:

使用位数映射分类后的DataFrame:   Server          Port function_val_cut function_val_digits0  Ser123     Ethernet3               5k                  5k1  Ser123     Ethernet4               5k                  5k2  Ser123    Ethernet12              10k                 10k3  Ser123   Ethernet567              20k                 20k4  Serabc     Ethernet2               5k                  5k5  Serabc    Ethernet34              10k                 10k6  Serabc   Ethernet458              20k                 20k7  Serabc  Ethernet5689              NaN                 20k

注意事项:

labels_by_digits字典需要包含所有可能出现的位数及其对应的标签。如果计算出的位数在字典中没有对应的键,map函数将返回NaN。这种方法对于严格按照数字位数进行分类的场景非常有效。

总结与最佳实践

本文展示了在Pandas DataFrame中根据复杂条件(特别是从字符串中提取数字并基于其数值或位数)创建新列的两种强大方法:

str.extract + pd.cut: 适用于根据数值的大小范围进行分类。当需要将连续的数值数据离散化到预定义区间时,这是一个理想的选择。str.extract + np.log10 + np.ceil + map: 适用于根据数字的位数进行分类。当分类逻辑与数字的长度而非具体数值范围更相关时,此方法更为直接和高效。

在实际应用中,选择哪种方法取决于具体的业务逻辑和分类需求。无论哪种方法,以下几点都是通用的最佳实践:

正则表达式的精准性: 确保str.extract中的正则表达式能够准确无误地捕获目标数据。数据类型转换: 在进行数值计算或比较之前,务必将提取出的字符串数据转换为正确的数值类型(如int或float)。错误处理: 考虑正则表达式未能匹配、类型转换失败或数值超出预设范围/映射字典的情况,并根据需要添加错误处理逻辑(例如,使用fillna()处理NaN值)。可读性与维护性: 对于复杂的条件逻辑,将bins、labels或映射字典定义为单独的变量,可以提高代码的可读性和可维护性。

通过掌握这些Pandas技巧,您可以更高效、更灵活地处理和转换DataFrame中的数据,满足各种复杂的数据处理需求。

以上就是Pandas DataFrame中基于字符串数字的高级条件赋值技巧的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1376863.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 16:16:33
下一篇 2025年12月14日 16:16:40

相关推荐

  • HTML、CSS 和 JavaScript 中的简单侧边栏菜单

    构建一个简单的侧边栏菜单是一个很好的主意,它可以为您的网站添加有价值的功能和令人惊叹的外观。 侧边栏菜单对于客户找到不同项目的方式很有用,而不会让他们觉得自己有太多选择,从而创造了简单性和秩序。 今天,我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

    2025年12月24日
    200
  • 前端代码辅助工具:如何选择最可靠的AI工具?

    前端代码辅助工具:可靠性探讨 对于前端工程师来说,在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而,并非所有工具都能提供同等的可靠性。 个性化需求 关于哪个AI工具最可靠,这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素: 立…

    2025年12月24日
    300
  • 带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

    响应式侧边导航栏不仅有助于改善网站的导航,还可以解决整齐放置链接的问题,从而增强用户体验。通过使用工具提示,可以让用户了解每个链接的功能,包括设计紧凑的情况。 在本教程中,我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。 对于那些一直想要一个干净、简…

    2025年12月24日
    000
  • 布局 – CSS 挑战

    您可以在 github 仓库中找到这篇文章中的所有代码。 您可以在这里查看视觉效果: 固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

    2025年12月24日
    000
  • 隐藏元素 – CSS 挑战

    您可以在 github 仓库中找到这篇文章中的所有代码。 您可以在此处查看隐藏元素的视觉效果 – codesandbox 隐藏元素 hiding elements hiding elements hiding elements hiding elements hiding element…

    2025年12月24日
    400
  • 居中 – CSS 挑战

    您可以在 github 仓库中找到这篇文章中的所有代码。 您可以在此处查看垂直中心 – codesandbox 和水平中心的视觉效果。 通过 css 居中 垂直居中 centering centering centering centering centering centering立即…

    2025年12月24日 好文分享
    300
  • 如何在 Laravel 框架中轻松集成微信支付和支付宝支付?

    如何用 laravel 框架集成微信支付和支付宝支付 问题:如何在 laravel 框架中集成微信支付和支付宝支付? 回答: 建议使用 easywechat 的 laravel 版,easywechat 是一个由腾讯工程师开发的高质量微信开放平台 sdk,已被广泛地应用于许多 laravel 项目中…

    2025年12月24日
    000
  • 如何在移动端实现子 div 在父 div 内任意滑动查看?

    如何在移动端中实现让子 div 在父 div 内任意滑动查看 在移动端开发中,有时我们需要让子 div 在父 div 内任意滑动查看。然而,使用滚动条无法实现负值移动,因此需要采用其他方法。 解决方案: 使用绝对布局(absolute)或相对布局(relative):将子 div 设置为绝对或相对定…

    2025年12月24日
    000
  • 移动端嵌套 DIV 中子 DIV 如何水平滑动?

    移动端嵌套 DIV 中子 DIV 滑动 在移动端开发中,遇到这样的问题:当子 DIV 的高度小于父 DIV 时,无法在父 DIV 中水平滚动子 DIV。 无限画布 要实现子 DIV 在父 DIV 中任意滑动,需要创建一个无限画布。使用滚动无法达到负值,因此需要使用其他方法。 相对定位 一种方法是将子…

    2025年12月24日
    000
  • 移动端项目中,如何消除rem字体大小计算带来的CSS扭曲?

    移动端项目中消除rem字体大小计算带来的css扭曲 在移动端项目中,使用rem计算根节点字体大小可以实现自适应布局。但是,此方法可能会导致页面打开时出现css扭曲,这是因为页面内容在根节点字体大小赋值后重新渲染造成的。 解决方案: 要避免这种情况,将计算根节点字体大小的js脚本移动到页面的最前面,即…

    2025年12月24日
    000
  • Nuxt 移动端项目中 rem 计算导致 CSS 变形,如何解决?

    Nuxt 移动端项目中解决 rem 计算导致 CSS 变形 在 Nuxt 移动端项目中使用 rem 计算根节点字体大小时,可能会遇到一个问题:页面内容在字体大小发生变化时会重绘,导致 CSS 变形。 解决方案: 可将计算根节点字体大小的 JS 代码块置于页面最前端的 标签内,确保在其他资源加载之前执…

    2025年12月24日
    200
  • Nuxt 移动端项目使用 rem 计算字体大小导致页面变形,如何解决?

    rem 计算导致移动端页面变形的解决方法 在 nuxt 移动端项目中使用 rem 计算根节点字体大小时,页面会发生内容重绘,导致页面打开时出现样式变形。如何避免这种现象? 解决方案: 移动根节点字体大小计算代码到页面顶部,即 head 中。 原理: flexível.js 也遇到了类似问题,它的解决…

    2025年12月24日
    000
  • 形状 – CSS 挑战

    您可以在 github 仓库中找到这篇文章中的所有代码。 您可以在此处查看 codesandbox 的视觉效果。 通过css绘制各种形状 如何在 css 中绘制正方形、梯形、三角形、异形三角形、扇形、圆形、半圆、固定宽高比、0.5px 线? shapes 0.5px line .square { w…

    2025年12月24日
    000
  • 有哪些美观的开源数字大屏驾驶舱框架?

    开源数字大屏驾驶舱框架推荐 问题:有哪些美观的开源数字大屏驾驶舱框架? 答案: 资源包 [弗若恩智能大屏驾驶舱开发资源包](https://www.fanruan.com/resource/152) 软件 [弗若恩报表 – 数字大屏可视化组件](https://www.fanruan.c…

    2025年12月24日
    000
  • 网站底部如何实现飘彩带效果?

    网站底部飘彩带效果的 js 库实现 许多网站都会在特殊节日或活动中添加一些趣味性的视觉效果,例如点击按钮后散发的五彩缤纷的彩带。对于一个特定的网站来说,其飘彩带效果的实现方式可能有以下几个方面: 以 https://dub.sh/ 网站为例,它底部按钮点击后的彩带效果是由 javascript 库实…

    2025年12月24日
    000
  • 网站彩带效果背后是哪个JS库?

    网站彩带效果背后是哪个js库? 当你访问某些网站时,点击按钮后,屏幕上会飘出五颜六色的彩带,营造出庆祝的氛围。这些效果是通过使用javascript库实现的。 问题: 哪个javascript库能够实现网站上点击按钮散发彩带的效果? 答案: 根据给定网站的源代码分析: 可以发现,该网站使用了以下js…

    好文分享 2025年12月24日
    100
  • 产品预览卡项目

    这个项目最初是来自 Frontend Mentor 的挑战,旨在使用 HTML 和 CSS 创建响应式产品预览卡。最初的任务是设计一张具有视觉吸引力和功能性的产品卡,能够无缝适应各种屏幕尺寸。这涉及使用 CSS 媒体查询来确保布局在不同设备上保持一致且用户友好。产品卡包含产品图像、标签、标题、描述和…

    2025年12月24日
    100
  • 如何利用 echarts-gl 绘制带发光的 3D 图表?

    如何绘制带发光的 3d 图表,类似于 echarts 中的示例? 为了实现类似的 3d 图表效果,需要引入 echarts-gl 库:https://github.com/ecomfe/echarts-gl。 echarts-gl 专用于在 webgl 环境中渲染 3d 图形。它提供了各种 3d 图…

    2025年12月24日
    000
  • 如何在 Element UI 的 el-rate 组件中实现 5 颗星 5 分制与百分制之间的转换?

    如何在el-rate中将5颗星5分制的分值显示为5颗星百分制? 要实现该效果,只需使用 el-rate 组件的 allow-half 属性。在设置 allow-half 属性后,获得的结果乘以 20 即可得到0-100之间的百分制分数。如下所示: score = score * 20; 动态显示鼠标…

    2025年12月24日
    100
  • CSS 最佳实践:后端程序员重温 CSS 时常见的三个疑问?

    CSS 最佳实践:提升代码质量 作为后端程序员,在重温 CSS/HTML 时,你可能会遇到一些关于最佳实践的问题。以下将解答三个常见问题,帮助你编写更规范、清晰的 CSS 代码。 1. margin 设置策略 当相邻元素都设置了 margin 时,通常情况下应为上一个元素设置 margin-bott…

    2025年12月24日
    000

发表回复

登录后才能评论
关注微信