使用Python Pandas通过字典实现DataFrame列的模糊分类

使用Python Pandas通过字典实现DataFrame列的模糊分类

本文将详细介绍如何利用Python Pandas库,结合字典和apply函数,为DataFrame添加基于子字符串匹配的分类列。当DataFrame的原始数据项并非字典键的精确匹配,而是包含字典键作为子字符串时,传统的map方法会失效。本教程将提供一种高效且灵活的解决方案,通过自定义匹配逻辑实现动态分类,确保即使数据描述性文本较长也能准确地将项目归类。

理解挑战:为什么直接map行不通?

在数据处理中,我们经常需要根据一个查找表(通常是python字典)来为dataframe的某一列添加新的分类信息。当dataframe列中的值与字典的键完全匹配时,pandas的map函数是一个非常高效且简洁的选择。例如:

import pandas as pd# 示例数据和字典data = {'Item': ['apple', 'grape'], 'Cost': [15, 20]}df_exact = pd.DataFrame(data)category_dict_exact = {'apple': 'fruit', 'grape': 'fruit'}# 直接使用mapdf_exact['Category'] = df_exact['Item'].map(category_dict_exact)print("直接map的结果:")print(df_exact)

然而,实际数据往往更为复杂。当DataFrame的Item列包含的字符串是字典键的“描述性”文本,而非精确键本身时(例如,“apple from happy orchard”而不是“apple”),map函数将无法找到匹配项,通常会返回NaN。这就是我们需要更灵活的匹配策略的原因。

解决方案核心:apply与自定义匹配逻辑

为了解决子字符串匹配的问题,我们可以结合使用DataFrame的apply方法和Python的生成器表达式。apply方法允许我们对DataFrame的每一行或每一列应用一个自定义函数。通过传入一个lambda函数,我们可以为每一项数据编写特定的匹配逻辑。

核心思想是:对于DataFrame Item 列中的每个字符串,遍历分类字典的键值对。如果字典的键作为子字符串存在于当前的Item字符串中,则返回对应的类别值。

逐步实现:代码示例

下面我们将通过一个完整的代码示例来演示如何实现这一功能。

立即学习“Python免费学习笔记(深入)”;

1. 定义分类字典和原始DataFrame

首先,我们需要定义我们的分类字典和待处理的DataFrame。

import pandas as pd# 定义分类字典# 注意:这里将字典命名为 category_dict 以避免与Python内置的dict关键字冲突category_dict = {    'apple': 'fruit',    'grape': 'fruit',    'chickpea': 'beans',    'coffee cup': 'tableware'}# 定义原始DataFramedata = {    'Item': [        'apple from happy orchard',        'grape from random vineyard',        'chickpea and black bean mix',        'coffee cup with dog decal'    ],    'Cost': [15, 20, 10, 14]}df = pd.DataFrame(data)print("原始DataFrame:")print(df)print("n分类字典:")print(category_dict)

2. 应用分类逻辑

接下来,我们将使用apply方法和lambda函数来创建新的Category列。

# 应用自定义匹配逻辑来创建 'Category' 列# 对于df['Item']中的每个元素x,我们遍历category_dict中的所有键值对(key, value)。# 如果key作为子字符串存在于x中 (key in x),我们就返回对应的value。# next()函数会返回第一个匹配到的value。# 如果没有匹配到任何key,next()的第二个参数None会被返回。df['Category'] = df['Item'].apply(    lambda x: next((value for key, value in category_dict.items() if key in x), None))print("n处理后的DataFrame:")print(df)

3. 结果输出

运行上述代码,您将得到一个新增了Category列的DataFrame,其中每个Item都根据其包含的子字符串被正确分类。

原始DataFrame:                          Item  Cost0     apple from happy orchard    151   grape from random vineyard    202  chickpea and black bean mix    103    coffee cup with dog decal    14分类字典:{'apple': 'fruit', 'grape': 'fruit', 'chickpea': 'beans', 'coffee cup': 'tableware'}处理后的DataFrame:                          Item  Cost   Category0     apple from happy orchard    15      fruit1   grape from random vineyard    20      fruit2  chickpea and black bean mix    10      beans3    coffee cup with dog decal    14  tableware

关键点解析

df[‘Item’].apply(lambda x: …): 这表示对df的Item列中的每一个元素x执行lambda函数中定义的逻辑。next((value for key, value in category_dict.items() if key in x), None): 这是实现模糊匹配的核心。for key, value in category_dict.items(): 遍历字典中的所有键值对。if key in x: 检查当前字典键key是否是DataFrame元素x的子字符串。(value for …): 这是一个生成器表达式,它会生成所有匹配到的value。next(…, None): next()函数用于从生成器中获取下一个元素。它会立即返回第一个匹配到的value,从而避免不必要的后续检查。如果生成器为空(即没有找到任何匹配的key),它将返回第二个参数None。

注意事项与优化

匹配顺序的重要性:如果字典中存在重叠的键(例如,{‘apple’: ‘fruit’, ‘red apple’: ‘red_fruit’}),next()函数会返回第一个匹配到的结果。这意味着字典的遍历顺序可能会影响结果。在Python 3.7+中,字典会保留插入顺序。如果对匹配顺序有严格要求,请确保字典键的定义顺序是合理的(例如,更具体的键放在前面)。

处理无匹配项:当前代码在没有找到匹配项时会返回None。您可以根据需求将其替换为其他默认值,例如’Unknown’或空字符串,只需修改next()函数的第二个参数即可。

df['Category'] = df['Item'].apply(    lambda x: next((value for key, value in category_dict.items() if key in x), 'Unknown'))

性能考虑:对于非常大的DataFrame和/或包含大量键的字典,apply方法结合循环可能会在性能上有所限制,因为它本质上是Python级别的循环。对于性能要求极高的场景,可以考虑以下优化:

向量化字符串方法: 如果您的匹配模式相对简单(例如,固定前缀/后缀),Pandas提供了一些向量化的字符串方法(如str.contains、str.extract),它们通常比apply更快。但对于任意子字符串匹配,apply通常是更灵活的选择。预编译正则表达式: 如果字典键非常多且复杂,可以考虑使用正则表达式,并预编译它们以提高效率。并行化: 对于非常大的数据集,可以考虑使用Dask或multiprocessing库进行并行处理。

大小写敏感性:key in x是大小写敏感的。如果需要进行大小写不敏感的匹配,可以将x和key都转换为小写(或大写)再进行比较:if key.lower() in x.lower()。

总结

通过结合使用Pandas的apply方法和Python的生成器表达式,我们可以优雅地解决DataFrame列与字典键之间的子字符串匹配问题,从而为数据添加灵活且准确的分类信息。这种方法不仅适用于本例中的商品分类,也广泛应用于文本分析、日志处理等多种场景,是数据清洗和特征工程中一个非常实用的技巧。理解其工作原理和注意事项,将有助于您更高效地处理复杂的数据分类任务。

以上就是使用Python Pandas通过字典实现DataFrame列的模糊分类的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1373645.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 13:26:42
下一篇 2025年12月14日 13:26:52

相关推荐

  • CSS mask属性无法获取图片:为什么我的图片不见了?

    CSS mask属性无法获取图片 在使用CSS mask属性时,可能会遇到无法获取指定照片的情况。这个问题通常表现为: 网络面板中没有请求图片:尽管CSS代码中指定了图片地址,但网络面板中却找不到图片的请求记录。 问题原因: 此问题的可能原因是浏览器的兼容性问题。某些较旧版本的浏览器可能不支持CSS…

    2025年12月24日
    900
  • Uniapp 中如何不拉伸不裁剪地展示图片?

    灵活展示图片:如何不拉伸不裁剪 在界面设计中,常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。 对于不同尺寸的图片,可以采用以下处理方式: 极端宽高比:撑满屏幕宽度或高度,再等比缩放居中。非极端宽高比:居中显示,若能撑满则撑满。 然而,如果需要不拉伸不…

    2025年12月24日
    400
  • 如何让小说网站控制台显示乱码,同时网页内容正常显示?

    如何在不影响用户界面的情况下实现控制台乱码? 当在小说网站上下载小说时,大家可能会遇到一个问题:网站上的文本在网页内正常显示,但是在控制台中却是乱码。如何实现此类操作,从而在不影响用户界面(UI)的情况下保持控制台乱码呢? 答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体,并通过在客户端…

    2025年12月24日
    800
  • 如何在地图上轻松创建气泡信息框?

    地图上气泡信息框的巧妙生成 地图上气泡信息框是一种常用的交互功能,它简便易用,能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。 利用地图库的原生功能 大多数地图库,如高德地图,都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现: 高德地图 JS API 参考文…

    2025年12月24日
    400
  • 如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画?

    如何实现元素scrollleft变化时的平滑动画效果? 在许多网页应用中,滚动容器的水平滚动条(scrollleft)需要频繁使用。为了让滚动动作更加自然,你希望给scrollleft的变化添加动画效果。 解决方案:scroll-behavior 属性 要实现scrollleft变化时的平滑动画效果…

    2025年12月24日
    000
  • 如何为滚动元素添加平滑过渡,使滚动条滑动时更自然流畅?

    给滚动元素平滑过渡 如何在滚动条属性(scrollleft)发生改变时为元素添加平滑的过渡效果? 解决方案:scroll-behavior 属性 为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码: click the button to slide right!…

    2025年12月24日
    500
  • 为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位?

    overflow 导致 inline-block 元素错位解析 当多个 inline-block 元素并列排列时,可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。 问题现象 在不设置 overflow 属性时,元素按预期显示在同一水平线上: 不设置 overf…

    2025年12月24日 好文分享
    400
  • 网页使用本地字体:为什么 CSS 代码中明明指定了“荆南麦圆体”,页面却仍然显示“微软雅黑”?

    网页中使用本地字体 本文将解答如何将本地安装字体应用到网页中,避免使用 src 属性直接引入字体文件。 问题: 想要在网页上使用已安装的“荆南麦圆体”字体,但 css 代码中将其置于第一位的“font-family”属性,页面仍显示“微软雅黑”字体。 立即学习“前端免费学习笔记(深入)”; 答案: …

    2025年12月24日
    000
  • 如何选择元素个数不固定的指定类名子元素?

    灵活选择元素个数不固定的指定类名子元素 在网页布局中,有时需要选择特定类名的子元素,但这些元素的数量并不固定。例如,下面这段 html 代码中,activebar 和 item 元素的数量均不固定: *n *n 如果需要选择第一个 item元素,可以使用 css 选择器 :nth-child()。该…

    2025年12月24日
    200
  • 使用 SVG 如何实现自定义宽度、间距和半径的虚线边框?

    使用 svg 实现自定义虚线边框 如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片,但是这种方法存在引入外部资源、性能低下的缺点。 为了避免上述问题,可以使用 svg(可缩放矢量图形)来创建纯代码实现。一种方…

    2025年12月24日
    100
  • 如何解决本地图片在使用 mask JS 库时出现的跨域错误?

    如何跨越localhost使用本地图片? 问题: 在本地使用mask js库时,引入本地图片会报跨域错误。 解决方案: 要解决此问题,需要使用本地服务器启动文件,以http或https协议访问图片,而不是使用file://协议。例如: python -m http.server 8000 然后,可以…

    2025年12月24日
    200
  • 旋转长方形后,如何计算其相对于画布左上角的轴距?

    绘制长方形并旋转,计算旋转后轴距 在拥有 1920×1080 画布中,放置一个宽高为 200×20 的长方形,其坐标位于 (100, 100)。当以任意角度旋转长方形时,如何计算它相对于画布左上角的 x、y 轴距? 以下代码提供了一个计算旋转后长方形轴距的解决方案: const x = 200;co…

    2025年12月24日
    000
  • 旋转长方形后,如何计算它与画布左上角的xy轴距?

    旋转后长方形在画布上的xy轴距计算 在画布中添加一个长方形,并将其旋转任意角度,如何计算旋转后的长方形与画布左上角之间的xy轴距? 问题分解: 要计算旋转后长方形的xy轴距,需要考虑旋转对长方形宽高和位置的影响。首先,旋转会改变长方形的长和宽,其次,旋转会改变长方形的中心点位置。 求解方法: 计算旋…

    2025年12月24日
    000
  • 旋转长方形后如何计算其在画布上的轴距?

    旋转长方形后计算轴距 假设长方形的宽、高分别为 200 和 20,初始坐标为 (100, 100),我们将它旋转一个任意角度。根据旋转矩阵公式,旋转后的新坐标 (x’, y’) 可以通过以下公式计算: x’ = x * cos(θ) – y * sin(θ)y’ = x * …

    2025年12月24日
    000
  • 如何让“元素跟随文本高度,而不是撑高父容器?

    如何让 元素跟随文本高度,而不是撑高父容器 在页面布局中,经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中,父容器被较高的图片撑开,而文本的高度没有被考虑。本问答将提供纯css解决方案,让图片跟随文本高度,确保父容器的高度不会被图片影响。 解决方法 为了解决这个问题,需要将图片从文档流中脱离…

    2025年12月24日
    000
  • 为什么我的特定 DIV 在 Edge 浏览器中无法显示?

    特定 DIV 无法显示:用户代理样式表的困扰 当你在 Edge 浏览器中打开项目中的某个 div 时,却发现它无法正常显示,仔细检查样式后,发现是由用户代理样式表中的 display none 引起的。但你疑问的是,为什么会出现这样的样式表,而且只针对特定的 div? 背后的原因 用户代理样式表是由…

    2025年12月24日
    200
  • 如何计算旋转后长方形在画布上的轴距?

    旋转后长方形与画布轴距计算 在给定的画布中,有一个长方形,在随机旋转一定角度后,如何计算其在画布上的轴距,即距离左上角的距离? 以下提供一种计算长方形相对于画布左上角的新轴距的方法: const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

    2025年12月24日
    200
  • CSS元素设置em和transition后,为何载入页面无放大效果?

    css元素设置em和transition后,为何载入无放大效果 很多开发者在设置了em和transition后,却发现元素载入页面时无放大效果。本文将解答这一问题。 原问题:在视频演示中,将元素设置如下,载入页面会有放大效果。然而,在个人尝试中,并未出现该效果。这是由于macos和windows系统…

    2025年12月24日
    200
  • inline-block元素错位了,是为什么?

    inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素,它可以与其他元素行内排列。但是,在某些情况下,inline-block元素可能会出现错位显示的问题。 错位的原因 当inline-block元素设置了overflow:hidden属性时,它会影响元素的…

    2025年12月24日
    000
  • 为什么 CSS mask 属性未请求指定图片?

    解决 css mask 属性未请求图片的问题 在使用 css mask 属性时,指定了图片地址,但网络面板显示未请求获取该图片,这可能是由于浏览器兼容性问题造成的。 问题 如下代码所示: 立即学习“前端免费学习笔记(深入)”; icon [data-icon=”cloud”] { –icon-cl…

    2025年12月24日
    200

发表回复

登录后才能评论
关注微信