使用字典为Pandas DataFrame添加分类列:处理子字符串匹配

使用字典为Pandas DataFrame添加分类列:处理子字符串匹配

本教程详细介绍了如何利用Python字典为Pandas DataFrame添加一个分类列。当字典的键是DataFrame中目标列文本的子字符串时,传统map方法不再适用。文章将展示如何结合使用apply方法与自定义lambda函数,高效地实现基于子字符串匹配的分类,并提供完整的代码示例及注意事项,确保数据分类的准确性和灵活性。

在数据分析和处理中,我们经常需要根据某些规则为dataframe中的数据添加分类标签。一个常见的场景是,我们有一个包含关键词到类别的映射字典,并希望根据dataframe某一列文本内容中是否包含这些关键词来为其分配相应的类别。然而,当字典的键并非dataframe列中的精确值,而是其子字符串时,标准的dataframe.map()方法便无法直接满足需求。本文将深入探讨如何优雅地解决这一问题。

遇到的挑战

假设我们有一个商品列表DataFrame,其中包含商品名称(Item列),以及一个将商品关键词映射到其类别的字典。例如:

category_dict = {    'apple': 'fruit',    'grape': 'fruit',    'chickpea': 'beans',    'coffee cup': 'tableware'}data = {    'Item': [        'apple from happy orchard',        'grape from random vineyard',        'chickpea and black bean mix',        'coffee cup with dog decal'    ],    'Cost': [15, 20, 10, 14]}df = pd.DataFrame(data)

我们期望的结果是为DataFrame添加一个Category列,根据Item列中的关键词从category_dict中查找对应的类别。如果直接使用df[‘Item’].map(category_dict),由于Item列中的值(如”apple from happy orchard”)与字典键(”apple”)不完全匹配,map方法将返回NaN,无法达到预期效果。

解决方案:结合apply与自定义lambda函数

解决此问题的核心在于对DataFrame的每一行(或具体到每一单元格)应用一个自定义逻辑,该逻辑能够遍历字典,检查字典键是否为单元格文本的子字符串。Pandas的apply()方法结合Python的lambda函数和生成器表达式,能够高效地实现这一目标。

以下是实现这一功能的代码示例:

import pandas as pd# 定义分类字典category_dict = {    'apple': 'fruit',    'grape': 'fruit',    'chickpea': 'beans',    'coffee cup': 'tableware'}# 创建示例DataFramedata = {    'Item': [        'apple from happy orchard',        'grape from random vineyard',        'chickpea and black bean mix',        'coffee cup with dog decal',        'banana smoothie' # 添加一个没有匹配项的示例    ],    'Cost': [15, 20, 10, 14, 12]}df = pd.DataFrame(data)# 使用apply和lambda函数添加'Category'列df['Category'] = df['Item'].apply(    lambda item_text: next(        (value for key, value in category_dict.items() if key in item_text),        None    ))print("原始DataFrame:")print(pd.DataFrame(data))print("n添加分类列后的DataFrame:")print(df)

运行上述代码,将得到如下输出:

原始DataFrame:                          Item  Cost0     apple from happy orchard    151   grape from random vineyard    202  chickpea and black bean mix    103    coffee cup with dog decal    144            banana smoothie    12添加分类列后的DataFrame:                          Item  Cost   Category0     apple from happy orchard    15      fruit1   grape from random vineyard    20      fruit2  chickpea and black bean mix    10      beans3    coffee cup with dog decal    14  tableware4            banana smoothie    12       None

代码解析

df[‘Item’].apply(…):apply()方法是Pandas DataFrame或Series的一个强大功能,它允许我们对Series中的每一个元素或DataFrame的每一行/列应用一个函数。在这里,我们将其应用于Item列,意味着对Item列中的每一个字符串执行一次指定的lambda函数。

lambda item_text::这是一个匿名函数,它接收一个参数item_text,代表Item列中的当前字符串(例如,”apple from happy orchard”)。

next((value for key, value in category_dict.items() if key in item_text), None):这是解决方案的核心逻辑。

(value for key, value in category_dict.items() if key in item_text): 这是一个生成器表达式。它遍历category_dict中的每一个键值对(key, value)。对于每个键key,它检查key是否作为子字符串存在于当前的item_text中。如果条件key in item_text为真,则生成器会产生对应的value。next(generator, default): next()函数用于从迭代器(这里是生成器表达式)中获取下一个元素。当生成器产生第一个匹配的value时,next()会立即返回这个value。这意味着一旦找到第一个匹配的关键词,就会停止搜索,并返回该关键词对应的类别。如果生成器表达式遍历完整个字典,但没有找到任何匹配的key,next()函数会返回其第二个参数None。这确保了即使没有找到匹配项,Category列也不会引发错误,而是填充None。

注意事项与最佳实践

匹配顺序的重要性:next()函数会返回第一个匹配到的项。如果字典中存在重叠的关键词(例如,{‘apple’: ‘fruit’, ‘red apple’: ‘red fruit’}),且item_text中同时包含这两个关键词,那么返回的类别将取决于category_dict.items()的遍历顺序。在Python 3.7+中,字典会保留插入顺序,因此通常会返回先插入的那个匹配项。如果匹配顺序很重要,请确保字典的定义顺序或考虑更复杂的匹配逻辑(例如,优先匹配更长的关键词)。

性能考量:对于非常大的DataFrame,apply()方法虽然功能强大,但在纯Python循环中执行自定义逻辑可能会比Pandas内置的向量化操作慢。对于数百万行的数据,可以考虑使用更底层的字符串匹配库或对字典进行预处理(例如,使用正则表达式)来优化性能。然而,对于大多数常见规模的数据集,apply()方法通常足够高效。

大小写敏感性:key in item_text是大小写敏感的。如果需要进行不区分大小写的匹配,应在比较前将key和item_text都转换为小写或大写,例如key.lower() in item_text.lower()。

处理无匹配项:next()函数中的None作为默认值是处理无匹配项的优雅方式。根据业务需求,也可以将其替换为其他默认值(如’Other’、’Unknown’等),或者进行后续处理来识别未分类的数据。

总结

通过结合使用Pandas的apply()方法、Python的lambda函数和生成器表达式,我们可以灵活高效地为DataFrame添加基于子字符串匹配的分类列。这种方法不仅解决了传统map()方法的局限性,还通过next()函数的默认值参数,优雅地处理了无匹配项的情况。理解并掌握这一技巧,将极大地提升您在处理复杂文本数据分类任务时的效率和代码质量。

以上就是使用字典为Pandas DataFrame添加分类列:处理子字符串匹配的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1373573.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 13:22:28
下一篇 2025年12月14日 13:22:40

相关推荐

  • Pandas DataFrame行提取教程:避免eq()与列表类型不匹配的陷阱

    本教程深入探讨了在Pandas DataFrame中根据聚合结果(如idxmax())进行行提取时,因数据类型不匹配(将单元素列表误用作标量字符串)导致返回空DataFrame的常见问题。文章详细解释了Series.eq()方法对输入类型(列表与标量)的期望,并提供了通过列表解包(ddate[0])…

    2025年12月14日
    000
  • Pandas DataFrame超宽结构重塑:从扁平化JSON到规范化多表

    本文详细介绍了如何使用Pandas处理由扁平化JSON数据导致的超宽DataFrame。通过melt()函数将宽格式数据转换为长格式,并结合字符串解析与pivot_table()实现数据重构,从而将嵌套结构拆分为更易于分析的规范化表格,有效解决列数过多的问题。 1. 引言:超宽DataFrame的挑…

    2025年12月14日
    000
  • python如何遍历一个字典的键和值_python高效遍历字典key和value的技巧

    最推荐使用dict.items()遍历字典键值对,因其可读性强、效率高且内存友好;若只需键或值,可分别使用keys()或values();修改字典时应避免直接迭代原对象,宜通过副本或字典推导式操作。 在Python里,想把字典里的键和值都拿出来溜达一圈,最直接、也最推荐的方法就是用items()。它…

    2025年12月14日
    000
  • 如何使用Django从用户资料预填充表单字段

    本文详细介绍了在Django应用中,如何利用用户的个人资料信息(如全名)来预填充表单字段。核心方法是在处理GET请求时,通过Django表单的initial参数传递预设值,从而提升用户体验。文章将通过具体的代码示例,展示如何在视图函数中正确获取用户资料并将其应用到表单中,同时强调了在POST请求中避…

    2025年12月14日
    000
  • Django表单字段自动填充:从用户资料预填充数据

    本文详细讲解了如何在Django中实现表单字段的自动填充,特别是利用已登录用户的个人资料数据。核心方法是在处理GET请求时,通过initial参数将用户资料中的信息预设到表单中,从而提升用户体验,避免重复输入。教程将通过一个评论表单的实例,展示如何在视图函数中正确获取用户资料并将其应用到表单初始化中…

    2025年12月14日
    000
  • Django表单字段预填充:用户个人信息自动加载实践

    本文详细介绍了在Django应用中如何正确地预填充表单字段,特别是利用已登录用户的个人资料数据(如全名)。通过分析常见的错误用法,文章强调了在处理GET请求时使用initial参数来初始化表单的重要性,并提供了清晰的代码示例和最佳实践,确保用户体验的流畅性。 理解Django表单与数据预填充 在开发…

    2025年12月14日
    000
  • 在Django中利用用户资料预填充表单字段

    本教程详细阐述了如何在Django应用中,利用已登录用户的个人资料信息(如全名)预填充表单字段。文章重点解析了Django表单initial参数的正确使用场景,强调了在GET请求时初始化表单的重要性,并提供了清晰的代码示例和注意事项,以确保表单数据预填充的准确性和用户体验的流畅性。 1. 理解表单预…

    2025年12月14日
    000
  • Python怎么从字典中删除一个键值对_Python字典键值对删除操作

    删除Python字典键值对主要有四种方式:1. 使用del语句可直接删除指定键,但键不存在时会抛出KeyError;2. 使用pop()方法能删除并返回对应值,且可通过default参数避免KeyError;3. popitem()用于移除并返回最后一个插入的键值对,适用于LIFO场景;4. 字典推…

    2025年12月14日
    000
  • python pickle模块怎么用_python pickle对象序列化与反序列化教程

    pickle是Python对象序列化工具,可将对象转为字节流存储或传输,并能还原,支持自定义类实例;相比JSON,pickle专用于Python,能处理复杂对象但不安全,不可读,仅限可信环境使用;常用于模型保存、缓存、状态持久化等内部场景。 Python的pickle模块,简单来说,就是Python…

    2025年12月14日
    000
  • SQLAlchemy 动态 WHERE 条件构建与应用指南

    首先,本教程详细阐述了如何在 SQLAlchemy 中灵活构建动态 WHERE 查询条件。面对客户端输入的多变需求,我们通过将查询条件抽象为可迭代的列表,并结合一个通用函数进行动态应用,从而实现高度可配置的数据库查询。文章还提供了将字典形式的输入转换为 SQLAlchemy 条件表达式的实用方法,确…

    2025年12月14日
    000
  • 比较两个 Linestring 地理数据框的几何差异

    本文详细介绍了如何使用 geopandas 库有效地比较两个包含 Linestring 几何对象的地理数据框(GeoDataFrame),并找出它们之间的几何差异。通过利用 geopandas.overlay 函数及其 how=”symmetric_difference” 参…

    2025年12月14日
    000
  • 解决Django中自定义ForeignKey表单字段的必填问题

    本教程旨在解决Django应用中,尽管模型层已将ForeignKey字段设置为可选(blank=True, null=True),但在自定义表单中该字段仍被强制要求填写的问题。核心解决方案是在自定义的forms.ModelChoiceField中明确设置required=False,以确保表单验证与…

    2025年12月14日
    000
  • Python 实战:股票量化交易模拟器

    答案:构建Python股票量化交易模拟器需获取数据、执行策略、模拟交易并评估结果。使用yfinance或tushare获取历史数据,清洗后应用均线等策略生成信号,通过回测模拟买卖过程,计入手续费与滑点,计算收益率、夏普比率和最大回撤评估表现,避免过度优化需多数据验证与参数限制,对接实盘需券商API并…

    2025年12月14日
    000
  • SQLAlchemy 动态 WHERE 子句构建指南

    本文旨在指导读者如何在SQLAlchemy中构建动态的WHERE子句。通过将查询条件抽象为可迭代的表达式列表,并利用循环迭代应用这些条件,我们可以根据外部输入灵活地增减查询过滤逻辑,从而实现高度可定制化的数据查询,有效应对客户端多样化的查询需求。 1. 理解动态查询的需求 在传统的SQLAlchem…

    2025年12月14日
    000
  • 解决Python requests循环请求中遇到的401未授权错误

    在Python使用requests库循环抓取数据时,频繁请求可能导致服务器返回401未授权错误。本文将详细介绍如何通过引入重试机制、设置请求延迟以及利用多线程并发处理来构建一个健壮的网络爬虫,有效应对此类问题,确保数据稳定获取,同时优化抓取效率。 理解HTTP 401未授权错误及其成因 HTTP状态…

    2025年12月14日
    000
  • Python中十六进制地址到字节序列转换的正确姿势与常见误区

    本文深入探讨了在Python中将十六进制地址(如内存地址)转换为特定字节序列的方法,尤其关注在处理大小端序和Python字节字符串表示时可能遇到的常见困惑。文章详细介绍了struct模块的pack函数作为实现此转换的推荐方案,并澄清了pwnlib等库函数的正确用法,强调了Python字节字符串显示方…

    2025年12月14日
    000
  • Python循环打印星号图案:从入门到精通

    本文旨在指导读者使用Python循环语句打印出特定星号图案。通过逐步分析和代码示例,详细讲解如何使用嵌套循环实现星号数量的递增,并针对初学者常犯的错误进行分析和修正,最终帮助读者掌握循环控制和字符串输出的基本技巧。 在Python编程中,循环结构是构建复杂逻辑的基础。本教程将引导你使用 for 循环…

    2025年12月14日
    000
  • 解决Selenium启动Chrome浏览器SSL证书验证失败问题

    本文旨在帮助解决在使用Selenium和Python启动Chrome浏览器时遇到的SSL证书验证失败问题。通过分析错误信息,我们发现问题源于无法验证googlechromelabs.github.io的SSL证书。本文将提供一种简单有效的解决方案,利用Selenium Manager自动管理Chro…

    2025年12月14日
    000
  • Pandas 中基于条件和 Groupby 替换列中的特定字符

    本文介绍了如何使用 Pandas 的 groupby 功能,并结合字符串处理,根据条件替换 DataFrame 列中的特定字符。具体来说,我们将根据 ‘ACCOUNT’ 列进行分组,然后将 ‘ASSET_CLASS’ 列中的 “XX&#82…

    2025年12月14日
    000
  • Python怎么使用enumerate获取索引和值_enumerate函数索引与值遍历指南

    使用enumerate函数可同时获取可迭代对象的索引和值,语法为enumerate(iterable, start=0),它比range(len())更简洁、安全且高效,适用于列表、字符串、元组、字典、集合及文件等可迭代对象,并可与zip、列表推导式等结合实现复杂需求,是Python中处理索引遍历的…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信