如何在Pandas DataFrame中利用字典和子字符串匹配添加分类列

程序猿 • 2025年12月14日 13:22:56 • 用户投稿 • 阅读 0

本教程旨在解决如何在Pandas DataFrame中，根据一个包含关键词-类别映射的字典，为现有列动态添加一个分类列。当字典中的键是DataFrame列值中的子字符串时，直接使用map函数无法满足需求。我们将详细讲解如何利用apply函数结合自定义的lambda表达式，实现高效且灵活的子字符串匹配与分类赋值。

问题背景与挑战

在数据处理中，我们经常需要根据文本描述为数据项添加类别标签。一个常见的场景是，我们拥有一个包含关键词及其对应类别的字典，以及一个dataframe，其中某一列的文本值包含这些关键词。例如，我们有一个商品名称列表，希望根据商品名称中的特定词汇（如“apple”、“grape”）将其归类为“fruit”。

直接使用Pandas的map函数进行字典映射是处理一对一精确匹配的常用方法。然而，当字典的键不是DataFrame列值的精确匹配，而是其子字符串时，map函数将无法直接应用。例如，如果字典是{‘apple’: ‘fruit’}，而DataFrame中的项是’apple from happy orchard’，直接df[‘Item’].map(category_dict)将返回NaN，因为它无法找到完全匹配的键。

解决方案：结合apply与自定义匹配逻辑

为了解决子字符串匹配的问题，我们可以利用Pandas DataFrame的apply方法，结合一个自定义的lambda函数。这个lambda函数将遍历字典中的所有键值对，检查字典的键是否作为子字符串存在于DataFrame的当前单元格中。

1. 准备数据与字典

首先，我们定义用于映射的字典和示例DataFrame：

import pandas as pd# 类别字典，键是关键词，值是类别category_dict = {    'apple': 'fruit',    'grape': 'fruit',    'chickpea': 'beans',    'coffee cup': 'tableware'}# 示例DataFramedata = {    'Item': [        'apple from happy orchard',        'grape from random vineyard',        'chickpea and black bean mix',        'coffee cup with dog decal'    ],    'Cost': [15, 20, 10, 14]}df = pd.DataFrame(data)print("原始DataFrame:")print(df)

2. 应用自定义匹配函数

核心的解决方案在于使用df[‘Item’].apply()方法。apply方法会对DataFrame指定列的每一个元素执行一个函数。在这里，我们传递一个lambda函数，该函数接收列中的每个字符串x作为输入，并执行以下逻辑：

遍历字典项： for key, value in category_dict.items() 遍历字典中的每一个关键词和类别。子字符串匹配： if key in x 检查当前的关键词key是否是当前DataFrame项x的子字符串。获取第一个匹配项： next((value for key, value in category_dict.items() if key in x), None) 这行代码使用了一个生成器表达式。它会寻找第一个满足key in x条件的键值对，并返回其对应的value。如果没有任何键匹配成功，next函数将返回其第二个参数None。

# 应用自定义函数添加 'Category' 列df['Category'] = df['Item'].apply(    lambda x: next((value for key, value in category_dict.items() if key in x), None))print("n添加 'Category' 列后的DataFrame:")print(df)

输出结果：

原始DataFrame:                          Item  Cost0     apple from happy orchard    151   grape from random vineyard    202  chickpea and black bean mix    103    coffee cup with dog decal    14添加 'Category' 列后的DataFrame:                          Item  Cost   Category0     apple from happy orchard    15      fruit1   grape from random vineyard    20      fruit2  chickpea and black bean mix    10      beans3    coffee cup with dog decal    14  tableware

注意事项与进阶考量

性能考量： 对于非常大的DataFrame和/或字典，apply方法在Python循环中执行，可能不是最高效的。如果性能成为瓶颈，可以考虑以下优化：

正则表达式： 使用str.contains()结合正则表达式进行匹配，这通常在C语言层面实现，性能更优。向量化操作： 如果可能，将字典转换为更适合向量化操作的结构。预处理： 如果字典键的数量非常大，可以考虑构建一个Trie树或其他字符串搜索数据结构来加速匹配。

匹配优先级： next()函数会返回第一个找到的匹配项。如果一个DataFrame项可以匹配字典中的多个键（例如，”apple pie”可以匹配”apple”和”pie”），则字典中迭代顺序靠前的键会优先匹配。如果需要特定的优先级，应确保字典的键按照所需的优先级顺序排列（例如，将更具体的键放在前面，或对字典键进行排序）。

无匹配项处理： 当前代码中，如果DataFrame中的项没有匹配到字典中的任何关键词，Category列将赋值为None。你可以根据需求修改next函数的默认值，例如将其设置为’Other’或保留为pd.NA。

# 示例：无匹配项时赋值为 'Unknown'df['Category_with_unknown'] = df['Item'].apply(    lambda x: next((value for key, value in category_dict.items() if key in x), 'Unknown'))

大小写敏感性： key in x 是大小写敏感的。如果需要进行大小写不敏感的匹配，应在比较前将key和x都转换为小写：

df['Category_case_insensitive'] = df['Item'].apply(    lambda x: next((value for key, value in category_dict.items() if key.lower() in x.lower()), None))

总结

通过灵活运用Pandas的apply函数结合自定义的lambda表达式，我们可以有效地解决在DataFrame中基于字典进行子字符串匹配并添加分类列的问题。这种方法提供了一种强大且可定制的解决方案，适用于各种复杂的文本数据分类场景。在实际应用中，根据数据规模和性能需求，可以进一步考虑优化匹配逻辑和算法。

以上就是如何在Pandas DataFrame中利用字典和子字符串匹配添加分类列的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1373581.html

ai app apple cos c语言 go python 排列正则表达式键值对

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

SQLAlchemy 动态 WHERE 子句构建教程

上一篇 2025年12月14日 13:22:47

Python TypeVars与联合类型：理解约束与灵活绑定的兼容性

下一篇 2025年12月14日 13:23:06

好文分享

如何利用BFC和inline-block解决兄弟元素间margin塌陷问题？

BFC清除兄弟元素间margin塌陷原理 margin塌陷问题当相邻的块级元素垂直排列，它们的margin可能会塌陷并重叠，称为margin塌陷。 BFC清除margin塌陷清除margin塌陷的一种常见方法是将下方元素包裹在一个新的块级格式化上下文（BFC）中，因为BFC之间不会相互影响。 d…

程序猿
2025年12月24日
6000
好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
7000
好文分享

如何优化CSS Grid布局中子元素排列和宽度问题？

css grid布局中的优化问题在使用css grid布局时可能会遇到以下问题：问题1：无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%)，这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时，它们…

程序猿
2025年12月24日
9000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
5000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
3000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
2000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
3000
好文分享

面板翻页显示16张图片和信息，如何实现模块靠左显示并按行排列？

如何在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。已知信息：图片和信息使用json数据定义。使用paginationbyjs函数进行分页。使…

程序猿
2025年12月24日
0000
好文分享

旋转长方形后，如何计算其相对于画布左上角的轴距？

绘制长方形并旋转，计算旋转后轴距在拥有 1920×1080 画布中，放置一个宽高为 200×20 的长方形，其坐标位于 (100, 100)。当以任意角度旋转长方形时，如何计算它相对于画布左上角的 x、y 轴距？以下代码提供了一个计算旋转后长方形轴距的解决方案： const x = 200;co…

程序猿
2025年12月24日
0000
好文分享

如何在面板上翻页显示16个图片和信息，并实现模块靠左显示、内容按行排列？

如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。答案：要将div内的模块靠左显示，并按行排列模块内容，可以使用以下方式：给div容器添加flexbox属性： #list {…

程序猿
2025年12月24日
0000
好文分享

旋转长方形后，如何计算它与画布左上角的xy轴距？

旋转后长方形在画布上的xy轴距计算在画布中添加一个长方形，并将其旋转任意角度，如何计算旋转后的长方形与画布左上角之间的xy轴距？问题分解：要计算旋转后长方形的xy轴距，需要考虑旋转对长方形宽高和位置的影响。首先，旋转会改变长方形的长和宽，其次，旋转会改变长方形的中心点位置。求解方法：计算旋…

程序猿
2025年12月24日
0000
好文分享

如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果中间部分里面的图片，文字显示在图片下方第二页图片靠左显示以上就是如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？的…

程序猿
2025年12月24日
0000
好文分享

旋转长方形后如何计算其在画布上的轴距？

旋转长方形后计算轴距假设长方形的宽、高分别为 200 和 20，初始坐标为 (100, 100)，我们将它旋转一个任意角度。根据旋转矩阵公式，旋转后的新坐标 (x’, y’) 可以通过以下公式计算： x’ = x * cos(θ) – y * sin(θ)y’ = x * …

程序猿
2025年12月24日
0000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
好文分享

如何计算旋转后长方形在画布上的轴距？

旋转后长方形与画布轴距计算在给定的画布中，有一个长方形，在随机旋转一定角度后，如何计算其在画布上的轴距，即距离左上角的距离？以下提供一种计算长方形相对于画布左上角的新轴距的方法： const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

程序猿
2025年12月24日
2000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
3000