使用字典为Pandas DataFrame添加分类列:处理子字符串匹配

使用字典为Pandas DataFrame添加分类列:处理子字符串匹配

本教程详细介绍了如何利用Python字典为Pandas DataFrame添加一个分类列。当字典的键是DataFrame中目标列文本的子字符串时,传统map方法不再适用。文章将展示如何结合使用apply方法与自定义lambda函数,高效地实现基于子字符串匹配的分类,并提供完整的代码示例及注意事项,确保数据分类的准确性和灵活性。

在数据分析和处理中,我们经常需要根据某些规则为dataframe中的数据添加分类标签。一个常见的场景是,我们有一个包含关键词到类别的映射字典,并希望根据dataframe某一列文本内容中是否包含这些关键词来为其分配相应的类别。然而,当字典的键并非dataframe列中的精确值,而是其子字符串时,标准的dataframe.map()方法便无法直接满足需求。本文将深入探讨如何优雅地解决这一问题。

遇到的挑战

假设我们有一个商品列表DataFrame,其中包含商品名称(Item列),以及一个将商品关键词映射到其类别的字典。例如:

category_dict = {    'apple': 'fruit',    'grape': 'fruit',    'chickpea': 'beans',    'coffee cup': 'tableware'}data = {    'Item': [        'apple from happy orchard',        'grape from random vineyard',        'chickpea and black bean mix',        'coffee cup with dog decal'    ],    'Cost': [15, 20, 10, 14]}df = pd.DataFrame(data)

我们期望的结果是为DataFrame添加一个Category列,根据Item列中的关键词从category_dict中查找对应的类别。如果直接使用df[‘Item’].map(category_dict),由于Item列中的值(如”apple from happy orchard”)与字典键(”apple”)不完全匹配,map方法将返回NaN,无法达到预期效果。

解决方案:结合apply与自定义lambda函数

解决此问题的核心在于对DataFrame的每一行(或具体到每一单元格)应用一个自定义逻辑,该逻辑能够遍历字典,检查字典键是否为单元格文本的子字符串。Pandas的apply()方法结合Python的lambda函数和生成器表达式,能够高效地实现这一目标。

以下是实现这一功能的代码示例:

import pandas as pd# 定义分类字典category_dict = {    'apple': 'fruit',    'grape': 'fruit',    'chickpea': 'beans',    'coffee cup': 'tableware'}# 创建示例DataFramedata = {    'Item': [        'apple from happy orchard',        'grape from random vineyard',        'chickpea and black bean mix',        'coffee cup with dog decal',        'banana smoothie' # 添加一个没有匹配项的示例    ],    'Cost': [15, 20, 10, 14, 12]}df = pd.DataFrame(data)# 使用apply和lambda函数添加'Category'列df['Category'] = df['Item'].apply(    lambda item_text: next(        (value for key, value in category_dict.items() if key in item_text),        None    ))print("原始DataFrame:")print(pd.DataFrame(data))print("n添加分类列后的DataFrame:")print(df)

运行上述代码,将得到如下输出:

原始DataFrame:                          Item  Cost0     apple from happy orchard    151   grape from random vineyard    202  chickpea and black bean mix    103    coffee cup with dog decal    144            banana smoothie    12添加分类列后的DataFrame:                          Item  Cost   Category0     apple from happy orchard    15      fruit1   grape from random vineyard    20      fruit2  chickpea and black bean mix    10      beans3    coffee cup with dog decal    14  tableware4            banana smoothie    12       None

代码解析

df[‘Item’].apply(…):apply()方法是Pandas DataFrame或Series的一个强大功能,它允许我们对Series中的每一个元素或DataFrame的每一行/列应用一个函数。在这里,我们将其应用于Item列,意味着对Item列中的每一个字符串执行一次指定的lambda函数。

lambda item_text::这是一个匿名函数,它接收一个参数item_text,代表Item列中的当前字符串(例如,”apple from happy orchard”)。

next((value for key, value in category_dict.items() if key in item_text), None):这是解决方案的核心逻辑。

(value for key, value in category_dict.items() if key in item_text): 这是一个生成器表达式。它遍历category_dict中的每一个键值对(key, value)。对于每个键key,它检查key是否作为子字符串存在于当前的item_text中。如果条件key in item_text为真,则生成器会产生对应的value。next(generator, default): next()函数用于从迭代器(这里是生成器表达式)中获取下一个元素。当生成器产生第一个匹配的value时,next()会立即返回这个value。这意味着一旦找到第一个匹配的关键词,就会停止搜索,并返回该关键词对应的类别。如果生成器表达式遍历完整个字典,但没有找到任何匹配的key,next()函数会返回其第二个参数None。这确保了即使没有找到匹配项,Category列也不会引发错误,而是填充None。

注意事项与最佳实践

匹配顺序的重要性:next()函数会返回第一个匹配到的项。如果字典中存在重叠的关键词(例如,{‘apple’: ‘fruit’, ‘red apple’: ‘red fruit’}),且item_text中同时包含这两个关键词,那么返回的类别将取决于category_dict.items()的遍历顺序。在Python 3.7+中,字典会保留插入顺序,因此通常会返回先插入的那个匹配项。如果匹配顺序很重要,请确保字典的定义顺序或考虑更复杂的匹配逻辑(例如,优先匹配更长的关键词)。

性能考量:对于非常大的DataFrame,apply()方法虽然功能强大,但在纯Python循环中执行自定义逻辑可能会比Pandas内置的向量化操作慢。对于数百万行的数据,可以考虑使用更底层的字符串匹配库或对字典进行预处理(例如,使用正则表达式)来优化性能。然而,对于大多数常见规模的数据集,apply()方法通常足够高效。

大小写敏感性:key in item_text是大小写敏感的。如果需要进行不区分大小写的匹配,应在比较前将key和item_text都转换为小写或大写,例如key.lower() in item_text.lower()。

处理无匹配项:next()函数中的None作为默认值是处理无匹配项的优雅方式。根据业务需求,也可以将其替换为其他默认值(如’Other’、’Unknown’等),或者进行后续处理来识别未分类的数据。

总结

通过结合使用Pandas的apply()方法、Python的lambda函数和生成器表达式,我们可以灵活高效地为DataFrame添加基于子字符串匹配的分类列。这种方法不仅解决了传统map()方法的局限性,还通过next()函数的默认值参数,优雅地处理了无匹配项的情况。理解并掌握这一技巧,将极大地提升您在处理复杂文本数据分类任务时的效率和代码质量。

以上就是使用字典为Pandas DataFrame添加分类列:处理子字符串匹配的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1373573.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 13:22:28
下一篇 2025年12月14日 13:22:40

相关推荐

  • 如何解决本地图片在使用 mask JS 库时出现的跨域错误?

    如何跨越localhost使用本地图片? 问题: 在本地使用mask js库时,引入本地图片会报跨域错误。 解决方案: 要解决此问题,需要使用本地服务器启动文件,以http或https协议访问图片,而不是使用file://协议。例如: python -m http.server 8000 然后,可以…

    2025年12月24日
    200
  • 旋转长方形后,如何计算其相对于画布左上角的轴距?

    绘制长方形并旋转,计算旋转后轴距 在拥有 1920×1080 画布中,放置一个宽高为 200×20 的长方形,其坐标位于 (100, 100)。当以任意角度旋转长方形时,如何计算它相对于画布左上角的 x、y 轴距? 以下代码提供了一个计算旋转后长方形轴距的解决方案: const x = 200;co…

    2025年12月24日
    000
  • 旋转长方形后,如何计算它与画布左上角的xy轴距?

    旋转后长方形在画布上的xy轴距计算 在画布中添加一个长方形,并将其旋转任意角度,如何计算旋转后的长方形与画布左上角之间的xy轴距? 问题分解: 要计算旋转后长方形的xy轴距,需要考虑旋转对长方形宽高和位置的影响。首先,旋转会改变长方形的长和宽,其次,旋转会改变长方形的中心点位置。 求解方法: 计算旋…

    2025年12月24日
    000
  • 旋转长方形后如何计算其在画布上的轴距?

    旋转长方形后计算轴距 假设长方形的宽、高分别为 200 和 20,初始坐标为 (100, 100),我们将它旋转一个任意角度。根据旋转矩阵公式,旋转后的新坐标 (x’, y’) 可以通过以下公式计算: x’ = x * cos(θ) – y * sin(θ)y’ = x * …

    2025年12月24日
    000
  • 如何计算旋转后长方形在画布上的轴距?

    旋转后长方形与画布轴距计算 在给定的画布中,有一个长方形,在随机旋转一定角度后,如何计算其在画布上的轴距,即距离左上角的距离? 以下提供一种计算长方形相对于画布左上角的新轴距的方法: const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

    2025年12月24日
    200
  • CSS元素设置em和transition后,为何载入页面无放大效果?

    css元素设置em和transition后,为何载入无放大效果 很多开发者在设置了em和transition后,却发现元素载入页面时无放大效果。本文将解答这一问题。 原问题:在视频演示中,将元素设置如下,载入页面会有放大效果。然而,在个人尝试中,并未出现该效果。这是由于macos和windows系统…

    2025年12月24日
    200
  • 如何计算旋转后的长方形在画布上的 XY 轴距?

    旋转长方形后计算其画布xy轴距 在创建的画布上添加了一个长方形,并提供其宽、高和初始坐标。为了视觉化旋转效果,还提供了一些旋转特定角度后的图片。 问题是如何计算任意角度旋转后,这个长方形的xy轴距。这涉及到使用三角学来计算旋转后的坐标。 以下是一个 javascript 代码示例,用于计算旋转后长方…

    2025年12月24日
    000
  • 使用 Mask 导入本地图片时,如何解决跨域问题?

    跨域疑难:如何解决 mask 引入本地图片产生的跨域问题? 在使用 mask 导入本地图片时,你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢?让我们深入了解一下: mask 框架假设你以 http(s) 协议加载你的 html 文件,而当使用 file:// 协议打开本地文件时,就会产生跨域…

    2025年12月24日
    200
  • 如何直接访问 Sass 地图变量的值?

    直接访问 sass 地图变量的值 在 sass 中,我们可以使用地图变量来存储一组键值对。而有时候,我们可能需要直接访问其中的某个值。 可以通过 map-get 函数直接从地图中获取特定的值。语法如下: map-get($map, $key) 其中: $map 是我们要获取值的 sass 地图变量。…

    2025年12月24日
    000
  • 正则表达式在文本验证中的常见问题有哪些?

    正则表达式助力文本输入验证 在文本输入框的验证中,经常遇到需要限定输入内容的情况。例如,输入框只能输入整数,第一位可以为负号。对于不会使用正则表达式的人来说,这可能是个难题。下面我们将提供三种正则表达式,分别满足不同的验证要求。 1. 可选负号,任意数量数字 如果输入框中允许第一位为负号,后面可输入…

    2025年12月24日
    000
  • 如何在 VS Code 中解决折叠代码复制问题?

    解决 VS Code 折叠代码复制问题 在 VS Code 中使用折叠功能可以帮助组织长代码,但使用复制功能时,可能会遇到只复制可见部分的问题。以下是如何解决此问题: 当代码被折叠时,可以使用以下简单操作复制整个折叠代码: 按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

    2025年12月24日
    000
  • 如何相对定位使用 z-index 在小程序中将文字压在图片上?

    如何在小程序中不使用绝对定位压住上面的图片? 在小程序开发中,有时候需要将文字内容压在图片上,但是又不想使用绝对定位来实现。这种情况可以使用相对定位和 z-index 属性来解决。 问题示例: 小程序中的代码如下: 顶顶顶顶 .index{ width: 100%; height: 100vh;}.…

    2025年12月24日
    000
  • 为什么多年的经验让我选择全栈而不是平均栈

    在全栈和平均栈开发方面工作了 6 年多,我可以告诉您,虽然这两种方法都是流行且有效的方法,但它们满足不同的需求,并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序,但它们的实现方式却截然不同。如果您在两者之间难以选择,我希望我在两者之间的经验能给您一些有用的见解。 在这篇文章中,我…

    2025年12月24日
    000
  • 我如何编写 CSS 选择器

    CSS 方法有很多,但我都讨厌它们。有些多(顺风等),有些少(BEM、OOCSS 等)。但归根结底,它们都有缺陷。 当然,人们使用这些方法有充分的理由,并且解决的许多问题我也遇到过。因此,在这篇文章中,我想写下我自己的关于如何保持 CSS 井井有条的指南。 这并不是一个任何人都可以开始使用的完整描述…

    2025年12月24日
    000
  • 姜戈顺风

    本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置 创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

    2025年12月24日
    000
  • 花 $o 学习这些编程语言或免费

    → Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

    2025年12月24日
    000
  • html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

    HTML5无法直接导出video标签内容,需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制;FFmpeg.wasm支持MP4等格式及精细编码控制;服务端方案适合高负载场景。 如果您希望在网页…

    2025年12月23日
    300
  • 如何查看编写的html_查看自己编写的HTML文件效果【效果】

    要查看HTML文件的浏览器渲染效果,需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。 如果您编写了HTML代码,但无法直观看到其在浏览器中的实际渲染效果,则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

    2025年12月23日
    400
  • html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

    HTML5不能直接运行PHP,需通过Ajax与PHP通信:前端用fetch发送请求,PHP接收处理并返回JSON,前端解析响应更新DOM;注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言,不能直接运行 PHP 代码,但可以通过 Ajax(异步 JavaScript)与 PHP…

    2025年12月23日
    300
  • html5怎么设置单选_html5用input type=”radio”加name设单选按钮组【设置】

    HTML5 使用 type=”radio” 实现单选功能,需统一 name 值构成互斥组;通过 checked 设默认项;可用 CSS 隐藏原生控件并自定义样式;推荐用 fieldset/legend 增强语义;required 可实现必填验证。 如果您希望在网页中创建一组互…

    2025年12月23日
    200

发表回复

登录后才能评论
关注微信