使用字典为Pandas DataFrame添加分类列:处理子字符串匹配

使用字典为Pandas DataFrame添加分类列:处理子字符串匹配

本教程详细介绍了如何利用Python字典为Pandas DataFrame添加一个分类列。当字典的键是DataFrame中目标列文本的子字符串时,传统map方法不再适用。文章将展示如何结合使用apply方法与自定义lambda函数,高效地实现基于子字符串匹配的分类,并提供完整的代码示例及注意事项,确保数据分类的准确性和灵活性。

在数据分析和处理中,我们经常需要根据某些规则为dataframe中的数据添加分类标签。一个常见的场景是,我们有一个包含关键词到类别的映射字典,并希望根据dataframe某一列文本内容中是否包含这些关键词来为其分配相应的类别。然而,当字典的键并非dataframe列中的精确值,而是其子字符串时,标准的dataframe.map()方法便无法直接满足需求。本文将深入探讨如何优雅地解决这一问题。

遇到的挑战

假设我们有一个商品列表DataFrame,其中包含商品名称(Item列),以及一个将商品关键词映射到其类别的字典。例如:

category_dict = {    'apple': 'fruit',    'grape': 'fruit',    'chickpea': 'beans',    'coffee cup': 'tableware'}data = {    'Item': [        'apple from happy orchard',        'grape from random vineyard',        'chickpea and black bean mix',        'coffee cup with dog decal'    ],    'Cost': [15, 20, 10, 14]}df = pd.DataFrame(data)

我们期望的结果是为DataFrame添加一个Category列,根据Item列中的关键词从category_dict中查找对应的类别。如果直接使用df[‘Item’].map(category_dict),由于Item列中的值(如”apple from happy orchard”)与字典键(”apple”)不完全匹配,map方法将返回NaN,无法达到预期效果。

解决方案:结合apply与自定义lambda函数

解决此问题的核心在于对DataFrame的每一行(或具体到每一单元格)应用一个自定义逻辑,该逻辑能够遍历字典,检查字典键是否为单元格文本的子字符串。Pandas的apply()方法结合Python的lambda函数和生成器表达式,能够高效地实现这一目标。

以下是实现这一功能的代码示例:

import pandas as pd# 定义分类字典category_dict = {    'apple': 'fruit',    'grape': 'fruit',    'chickpea': 'beans',    'coffee cup': 'tableware'}# 创建示例DataFramedata = {    'Item': [        'apple from happy orchard',        'grape from random vineyard',        'chickpea and black bean mix',        'coffee cup with dog decal',        'banana smoothie' # 添加一个没有匹配项的示例    ],    'Cost': [15, 20, 10, 14, 12]}df = pd.DataFrame(data)# 使用apply和lambda函数添加'Category'列df['Category'] = df['Item'].apply(    lambda item_text: next(        (value for key, value in category_dict.items() if key in item_text),        None    ))print("原始DataFrame:")print(pd.DataFrame(data))print("n添加分类列后的DataFrame:")print(df)

运行上述代码,将得到如下输出:

原始DataFrame:                          Item  Cost0     apple from happy orchard    151   grape from random vineyard    202  chickpea and black bean mix    103    coffee cup with dog decal    144            banana smoothie    12添加分类列后的DataFrame:                          Item  Cost   Category0     apple from happy orchard    15      fruit1   grape from random vineyard    20      fruit2  chickpea and black bean mix    10      beans3    coffee cup with dog decal    14  tableware4            banana smoothie    12       None

代码解析

df[‘Item’].apply(…):apply()方法是Pandas DataFrame或Series的一个强大功能,它允许我们对Series中的每一个元素或DataFrame的每一行/列应用一个函数。在这里,我们将其应用于Item列,意味着对Item列中的每一个字符串执行一次指定的lambda函数。

lambda item_text::这是一个匿名函数,它接收一个参数item_text,代表Item列中的当前字符串(例如,”apple from happy orchard”)。

next((value for key, value in category_dict.items() if key in item_text), None):这是解决方案的核心逻辑。

(value for key, value in category_dict.items() if key in item_text): 这是一个生成器表达式。它遍历category_dict中的每一个键值对(key, value)。对于每个键key,它检查key是否作为子字符串存在于当前的item_text中。如果条件key in item_text为真,则生成器会产生对应的value。next(generator, default): next()函数用于从迭代器(这里是生成器表达式)中获取下一个元素。当生成器产生第一个匹配的value时,next()会立即返回这个value。这意味着一旦找到第一个匹配的关键词,就会停止搜索,并返回该关键词对应的类别。如果生成器表达式遍历完整个字典,但没有找到任何匹配的key,next()函数会返回其第二个参数None。这确保了即使没有找到匹配项,Category列也不会引发错误,而是填充None。

注意事项与最佳实践

匹配顺序的重要性:next()函数会返回第一个匹配到的项。如果字典中存在重叠的关键词(例如,{‘apple’: ‘fruit’, ‘red apple’: ‘red fruit’}),且item_text中同时包含这两个关键词,那么返回的类别将取决于category_dict.items()的遍历顺序。在Python 3.7+中,字典会保留插入顺序,因此通常会返回先插入的那个匹配项。如果匹配顺序很重要,请确保字典的定义顺序或考虑更复杂的匹配逻辑(例如,优先匹配更长的关键词)。

性能考量:对于非常大的DataFrame,apply()方法虽然功能强大,但在纯Python循环中执行自定义逻辑可能会比Pandas内置的向量化操作慢。对于数百万行的数据,可以考虑使用更底层的字符串匹配库或对字典进行预处理(例如,使用正则表达式)来优化性能。然而,对于大多数常见规模的数据集,apply()方法通常足够高效。

大小写敏感性:key in item_text是大小写敏感的。如果需要进行不区分大小写的匹配,应在比较前将key和item_text都转换为小写或大写,例如key.lower() in item_text.lower()。

处理无匹配项:next()函数中的None作为默认值是处理无匹配项的优雅方式。根据业务需求,也可以将其替换为其他默认值(如’Other’、’Unknown’等),或者进行后续处理来识别未分类的数据。

总结

通过结合使用Pandas的apply()方法、Python的lambda函数和生成器表达式,我们可以灵活高效地为DataFrame添加基于子字符串匹配的分类列。这种方法不仅解决了传统map()方法的局限性,还通过next()函数的默认值参数,优雅地处理了无匹配项的情况。理解并掌握这一技巧,将极大地提升您在处理复杂文本数据分类任务时的效率和代码质量。

以上就是使用字典为Pandas DataFrame添加分类列:处理子字符串匹配的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1373573.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Pandas DataFrame行提取教程:避免eq()与列表类型不匹配的陷阱
上一篇 2025年12月14日 13:22:28
深入理解Python生成器中StopIteration异常的捕获机制
下一篇 2025年12月14日 13:22:40

相关推荐

  • 修复Django电商项目中AJAX过滤产品列表图片不显示问题

    在Django电商项目中,当使用AJAX动态加载过滤后的产品列表时,常遇到图片无法正常显示的问题。这通常是由于前端模板中图片加载方式(如data-setbg属性结合JavaScript库)与AJAX动态内容更新机制不兼容所致。解决方案是直接在AJAX返回的HTML中使用标准的标签来渲染图片,确保浏览…

    2026年5月10日
    000
  • Matplotlib 地图中多类型图例的创建与优化

    Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化

    本教程旨在解决matplotlib地图可视化中,如何在一个图例中同时展示颜色块(如区域分类)和自定义标记(如特定兴趣点)的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时,如何利用`matplotlib.lines.line2d`创建标记图例句柄,并将其与颜色块图例句柄合并,从而生成一…

    2026年5月10日 用户投稿
    100
  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 利用海象运算符简化条件赋值:Python教程与最佳实践

    本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…

    2026年5月10日
    100
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • Golang gRPC流式请求异常处理

    在Golang的gRPC流式通信中,必须通过context.Context处理异常。应监听上下文取消或超时,及时释放资源,设置合理超时,避免连接长时间挂起,并在goroutine中通过context控制生命周期。 在使用 Golang 和 gRPC 实现流式通信时,异常处理是确保服务健壮性的关键部分…

    2026年5月10日
    000
  • Go语言mgo查询构建:深入理解bson.M与日期范围查询的正确实践

    本文旨在解决go语言mgo库中构建复杂查询时,特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性,解释为何直接索引`interface{}`会导致“invalid operation”错误,并提供一种推荐的、结构清晰的代码重构方案,以确保查询条件能够正确…

    2026年5月10日
    100
  • vscode上怎么运行html_vscode上运行html步骤【指南】

    首先保存文件为.html格式,再通过浏览器或Live Server插件打开预览;推荐安装Live Server实现本地服务器运行与实时刷新,提升开发体验。 在 VS Code 上运行 HTML 文件并不需要复杂的配置,只需几个简单步骤即可预览页面效果。VS Code 本身是一个代码编辑器,不直接运行…

    2026年5月10日
    100
  • RichHandler与Rich Progress集成:解决显示冲突的教程

    在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时,可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

    2026年5月10日
    000
  • Golang goroutine与channel调试技巧

    使用go run -race检测数据竞争,结合runtime.NumGoroutine监控协程数量,通过pprof分析阻塞调用栈,利用select超时避免永久阻塞,有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心,但它们也带来了调试上…

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 创建指定大小并填充特定数据的Golang文件教程

    本文将介绍如何使用Golang创建一个指定大小的文件,并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件,从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件,并将其填充为全零数据。掌握这些方法,可以方便地在例如日志系统或磁盘队列等场景中,预先创建测试文件或初始…

    2026年5月10日
    000
  • 深入理解 Express.js 中 next() 参数的作用与中间件机制

    本文深入探讨 express.js 中间件函数中的 `next()` 参数。它负责将控制权传递给请求-响应周期中的下一个中间件或路由处理程序。文章将详细解释 `next()` 的工作原理、中间件的注册与执行顺序,以及不正确使用 `next()` 可能导致请求挂起的风险,并通过代码示例和实际应用场景,…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • 使用 WebCodecs VideoDecoder 实现精确逐帧回退

    本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时,实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳,可以避免渲染中间帧,从而提高用户体验。本文将提供详细的解决方案和示例代码,帮助开发者实现精确的视频帧控制。 在使用 WebCodecs VideoDecod…

    2026年5月10日
    000
  • Python递归函数追踪与性能考量:以序列打印为例

    本文深入探讨了Python中一种递归打印序列元素的方法,并着重演示了如何通过引入缩进参数来有效追踪递归函数的执行流程和参数变化。通过实际代码示例,文章揭示了递归调用可能带来的潜在性能开销,特别是对调用栈空间的需求,以及Python默认递归深度限制可能导致的错误,为读者提供了理解和优化递归算法的实用见…

    2026年5月10日
    000
  • python中zip函数详解 python多序列压缩zip函数应用场景

    zip函数的应用场景包括:1) 同时遍历多个序列,2) 合并多个列表的数据,3) 数据分析和科学计算中的元素运算,4) 处理csv文件,5) 性能优化。zip函数是一个强大的工具,能够简化代码并提高处理多个序列时的效率。 在Python中,zip函数是一个非常有用的工具,它能够将多个可迭代对象打包成…

    2026年5月10日
    000
  • html5怎么画实线_HTML5用CSS border-style:solid画元素实线边框【绘制】

    可通过CSS的border-style属性设为solid添加实线边框:一、内联样式用border:2px solid #000;二、内部样式表统一设置如div{border:1px solid #333};三、外部CSS文件定义.my-box{border:3px solid red}并引入;四、单…

    2026年5月10日
    200
  • Python中怎样使用pymongo?

    在python中使用pymongo可以轻松地与mongodb数据库进行交互。1)安装pymongo:pip install pymongo。2)连接到mongodb:from pymongo import mongoclient; client = mongoclient(‘mongod…

    2026年5月10日
    000
  • JS如何实现迭代器?迭代器协议

    JavaScript中实现迭代器需遵循可迭代协议和迭代器协议,通过定义[Symbol.iterator]方法返回具备next()方法的迭代器对象,从而支持for…of和展开运算符;该机制统一了数据结构的遍历接口,实现惰性求值,适用于自定义对象、树、图及无限序列等复杂场景,提升代码通用性与…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信