使用字典为DataFrame添加基于子字符串匹配的分类列

程序猿 • 2025年12月14日 13:23:53 • 用户投稿 • 阅读 0

本教程详细介绍了如何利用Python的Pandas库，通过字典为DataFrame添加一个新的分类列。针对DataFrame列中的文本字符串可能包含字典键作为子字符串的情况，文章提供了一种高效的解决方案，即结合apply方法与lambda表达式进行灵活的模式匹配，从而实现精准的分类映射。

在数据处理和分析中，我们经常需要根据现有列的内容，尤其是文本内容，来创建新的分类列。当分类规则可以通过一个字典来定义，且字典的键是目标列中字符串的子集时，传统的map方法可能无法直接满足需求。本文将详细阐述如何利用pandas.dataframe.apply结合python的生成器表达式和next函数，优雅地解决这一问题。

问题场景：基于子字符串的字典映射

假设我们有一个包含商品信息的DataFrame，其中Item列的字符串描述了商品，而我们希望根据一个预定义的字典来为其添加Category（类别）列。这个字典的键是商品的核心词汇，值是对应的类别。例如：

import pandas as pd# 原始字典category_dict = {    'apple': 'fruit',    'grape': 'fruit',    'chickpea': 'beans',    'coffee cup': 'tableware'}# 原始DataFramedata = {    'Item': [        'apple from happy orchard',        'grape from random vineyard',        'chickpea and black bean mix',        'coffee cup with dog decal'    ],    'Cost': [15, 20, 10, 14]}df = pd.DataFrame(data)print("原始DataFrame:")print(df)

输出：

原始DataFrame:                          Item  Cost0     apple from happy orchard    151   grape from random vineyard    202  chickpea and black bean mix    103    coffee cup with dog decal    14

我们的目标是生成如下的DataFrame：

                          Item  Cost   Category0     apple from happy orchard    15      fruit1   grape from random vineyard    20      fruit2  chickpea and black bean mix    10      beans3    coffee cup with dog decal    14  tableware

直接使用df[‘Item’].map(category_dict)将无法达到预期，因为map期望的是精确匹配，而我们的Item列值是包含字典键的更长字符串。

解决方案：apply结合Lambda和生成器表达式

解决此类问题的核心在于对DataFrame的每一行（或每一列的每个元素）应用一个自定义函数，该函数能够检查字符串中是否存在字典的任何键。pandas.Series.apply方法正是为此而生。

以下是实现这一目标的Python代码：

import pandas as pd# 原始字典category_dict = {    'apple': 'fruit',    'grape': 'fruit',    'chickpea': 'beans',    'coffee cup': 'tableware'}# 原始DataFramedata = {    'Item': [        'apple from happy orchard',        'grape from random vineyard',        'chickpea and black bean mix',        'coffee cup with dog decal'    ],    'Cost': [15, 20, 10, 14]}df = pd.DataFrame(data)# 使用apply方法添加Category列df['Category'] = df['Item'].apply(    lambda item_str: next(        (value for key, value in category_dict.items() if key in item_str),        None    ))print("n添加Category列后的DataFrame:")print(df)

代码解析

让我们深入理解这行关键代码：df[‘Category’] = df[‘Item’].apply(lambda item_str: next((value for key, value in category_dict.items() if key in item_str), None))

df[‘Item’].apply(…): 这表示我们将对DataFrame的Item列中的每一个元素应用一个函数。apply方法会遍历Item列的每一个字符串，并将该字符串作为参数传递给后面的lambda函数。

lambda item_str:: 这是一个匿名函数，item_str代表Item列中的当前字符串（例如’apple from happy orchard’）。

next((value for key, value in category_dict.items() if key in item_str), None): 这是实现子字符串匹配和值提取的核心。

(value for key, value in category_dict.items() if key in item_str): 这是一个生成器表达式。它遍历category_dict中的所有键值对。对于每个键key和值value，它会检查key是否作为子字符串存在于当前的item_str中。如果存在，它就生成对应的value。next(generator, default_value): next()函数用于从生成器中获取下一个元素。如果生成器能够产生一个值（即找到了一个匹配的字典键），next()会立即返回这个值。如果生成器遍历完所有键都没有找到匹配项，next()会返回我们指定的default_value，在这里是None。这意味着如果Item列的某个字符串没有匹配到任何字典键，它的Category将是None。

注意事项与扩展

匹配顺序: next()函数在找到第一个匹配的键后就会停止。如果一个item_str可以匹配到多个字典键（例如，’apple pie’既能匹配’apple’也能匹配’pie’），那么category_dict中键的迭代顺序将决定哪个类别被选中。Python字典在3.7+版本中保持插入顺序，因此通常是按字典定义时的顺序来匹配。如果需要更复杂的匹配优先级，可能需要对category_dict.items()进行预排序或调整匹配逻辑。

无匹配项处理: 当前代码在没有匹配时会返回None。如果希望返回一个默认字符串（如’Other’），可以将None替换为 ‘Other’。

df['Category'] = df['Item'].apply(    lambda item_str: next(        (value for key, value in category_dict.items() if key in item_str),        'Unknown' # 将None替换为'Unknown'    ))

性能考量: 对于非常大的DataFrame和字典，apply方法虽然灵活，但可能不如完全矢量化的操作高效。然而，对于涉及子字符串匹配的复杂逻辑，apply通常是必需的，并且在大多数实际场景中性能足够。如果性能成为瓶颈，可以考虑使用更高级的文本匹配库（如fuzzywuzzy进行模糊匹配）或预处理文本。

大小写不敏感匹配: 如果需要进行大小写不敏感的匹配，可以在检查条件时将key和item_str都转换为小写：

df['Category'] = df['Item'].apply(    lambda item_str: next(        (value for key, value in category_dict.items() if key.lower() in item_str.lower()),        None    ))

总结

通过结合pandas.Series.apply、lambda表达式和Python的生成器表达式与next函数，我们可以高效且灵活地为DataFrame添加基于字典子字符串匹配的分类列。这种方法不仅解决了传统map函数的局限性，还提供了处理无匹配项和控制匹配逻辑的强大能力，是处理复杂文本分类任务的实用工具。

以上就是使用字典为DataFrame添加基于子字符串匹配的分类列的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1373599.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

413.8K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

动态生成Plotly/Matplotlib离散RGB颜色列表的策略

上一篇 2025年12月14日 13:23:43

Pandas整型数据类型默认行为解析与测试兼容性策略

下一篇 2025年12月14日 13:24:08

用户投稿

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
用户投稿

旋转长方形后，如何计算其相对于画布左上角的轴距？

绘制长方形并旋转，计算旋转后轴距在拥有 1920×1080 画布中，放置一个宽高为 200×20 的长方形，其坐标位于 (100, 100)。当以任意角度旋转长方形时，如何计算它相对于画布左上角的 x、y 轴距？以下代码提供了一个计算旋转后长方形轴距的解决方案： const x = 200;co…

程序猿
2025年12月24日
0000
用户投稿

旋转长方形后，如何计算它与画布左上角的xy轴距？

旋转后长方形在画布上的xy轴距计算在画布中添加一个长方形，并将其旋转任意角度，如何计算旋转后的长方形与画布左上角之间的xy轴距？问题分解：要计算旋转后长方形的xy轴距，需要考虑旋转对长方形宽高和位置的影响。首先，旋转会改变长方形的长和宽，其次，旋转会改变长方形的中心点位置。求解方法：计算旋…

程序猿
2025年12月24日
0000
用户投稿

旋转长方形后如何计算其在画布上的轴距？

旋转长方形后计算轴距假设长方形的宽、高分别为 200 和 20，初始坐标为 (100, 100)，我们将它旋转一个任意角度。根据旋转矩阵公式，旋转后的新坐标 (x’, y’) 可以通过以下公式计算： x’ = x * cos(θ) – y * sin(θ)y’ = x * …

程序猿
2025年12月24日
0000
用户投稿

如何计算旋转后长方形在画布上的轴距？

旋转后长方形与画布轴距计算在给定的画布中，有一个长方形，在随机旋转一定角度后，如何计算其在画布上的轴距，即距离左上角的距离？以下提供一种计算长方形相对于画布左上角的新轴距的方法： const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

程序猿
2025年12月24日
2000
用户投稿

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
3000
用户投稿

如何计算旋转后的长方形在画布上的 XY 轴距？

旋转长方形后计算其画布xy轴距在创建的画布上添加了一个长方形，并提供其宽、高和初始坐标。为了视觉化旋转效果，还提供了一些旋转特定角度后的图片。问题是如何计算任意角度旋转后，这个长方形的xy轴距。这涉及到使用三角学来计算旋转后的坐标。以下是一个 javascript 代码示例，用于计算旋转后长方…

程序猿
2025年12月24日
0000
用户投稿

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
用户投稿

如何直接访问 Sass 地图变量的值？

直接访问 sass 地图变量的值在 sass 中，我们可以使用地图变量来存储一组键值对。而有时候，我们可能需要直接访问其中的某个值。可以通过 map-get 函数直接从地图中获取特定的值。语法如下： map-get($map, $key) 其中： $map 是我们要获取值的 sass 地图变量。…

程序猿
2025年12月24日
0000
用户投稿

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
4000
用户投稿

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
3000
用户投稿

如何相对定位使用 z-index 在小程序中将文字压在图片上？

如何在小程序中不使用绝对定位压住上面的图片？在小程序开发中，有时候需要将文字内容压在图片上，但是又不想使用绝对定位来实现。这种情况可以使用相对定位和 z-index 属性来解决。问题示例：小程序中的代码如下：顶顶顶顶 .index{ width: 100%; height: 100vh;}.…

程序猿
2025年12月24日
0000
用户投稿

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
用户投稿

我如何编写 CSS 选择器

CSS 方法有很多，但我都讨厌它们。有些多（顺风等），有些少（BEM、OOCSS 等）。但归根结底，它们都有缺陷。当然，人们使用这些方法有充分的理由，并且解决的许多问题我也遇到过。因此，在这篇文章中，我想写下我自己的关于如何保持 CSS 井井有条的指南。这并不是一个任何人都可以开始使用的完整描述…

程序猿
2025年12月24日
0000
用户投稿

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
用户投稿

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
用户投稿

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
1000
用户投稿

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
4000
用户投稿

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
用户投稿

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000