基于部分字符串匹配合并 Pandas DataFrames

程序猿 • 2025年12月14日 13:58:55 • 用户投稿 • 阅读 0

本文介绍如何基于一个 DataFrame 列中的部分文本与另一个 DataFrame 列进行匹配，并使用 Pandas 实现高效合并。我们将通过提取目标字符串，创建新的匹配列，最终完成两个 DataFrame 的合并操作，并提供详细的代码示例和注意事项。

问题背景

在数据处理中，经常会遇到需要合并两个 DataFrame 的情况，但标准的 pd.merge 函数要求两个 DataFrame 具有完全匹配的列。当一个 DataFrame 的列值包含另一个 DataFrame 列值的部分文本时，直接使用 pd.merge 无法达到预期效果。本文将提供一种解决方案，通过提取关键文本并创建新的列，实现基于部分字符串匹配的 DataFrame 合并。

解决方案

该方案的核心思想是：

从包含部分文本的 DataFrame (df1) 中，提取出与另一个 DataFrame (df2) 匹配的关键文本。将提取出的文本作为新的一列添加到 df1 中。使用新创建的列作为连接键，将 df1 和 df2 进行合并。

代码实现

假设我们有两个 DataFrame，df1 和 df2，它们的数据结构如下：

import pandas as pd# df1data1 = {'Hostname': ['ServerABC101', 'ServerABC102', 'ServerDDC103', 'ServerDDC609', 'ServerDDC103', 'ServerDDC609'],         'Region': ['US', 'US', 'PAC', 'Emea', 'PAC', 'Emea'],         'Model': ['Cisco', 'Cisco', 'Intel', 'Intel', 'Intel', 'Intel']}df1 = pd.DataFrame(data1)# df2data2 = {'Site': ['ABC', 'DDC'],         'City': ['NYC', 'DAL'],         'State': ['NY', 'TX']}df2 = pd.DataFrame(data2)print("df1:")print(df1)print("ndf2:")print(df2)

我们的目标是基于 df2[‘Site’] 中的文本与 df1[‘Hostname’] 中的部分文本匹配，将 df1 和 df2 合并。假设 df1[‘Hostname’] 中包含 “Server” 之后的三位大写字母代表 df2[‘Site’] 的值。

首先，使用正则表达式从 df1[‘Hostname’] 中提取 Site 代码：

df1['Site'] = df1['Hostname'].str.extract(r"Server([A-Z]{3})")print("ndf1 after extracting Site:")print(df1)

这里，str.extract(r”Server([A-Z]{3})”) 使用正则表达式 Server([A-Z]{3}) 从 Hostname 列中提取匹配 “Server” 后面的三个大写字母。提取的结果将作为新的 ‘Site’ 列添加到 df1 中。

接下来，使用 pd.merge 函数，基于新创建的 ‘Site’ 列将 df1 和 df2 进行合并：

df1 = pd.merge(df1, df2, on='Site', how='left')print("nFinal merged df1:")print(df1)

how=’left’ 参数指定使用左连接，即保留 df1 中的所有行，并将 df2 中匹配的行添加到 df1 中。如果df1中的Site在df2中没有匹配项，则City和State列将填充NaN。

完整代码示例

import pandas as pd# df1data1 = {'Hostname': ['ServerABC101', 'ServerABC102', 'ServerDDC103', 'ServerDDC609', 'ServerDDC103', 'ServerDDC609'],         'Region': ['US', 'US', 'PAC', 'Emea', 'PAC', 'Emea'],         'Model': ['Cisco', 'Cisco', 'Intel', 'Intel', 'Intel', 'Intel']}df1 = pd.DataFrame(data1)# df2data2 = {'Site': ['ABC', 'DDC'],         'City': ['NYC', 'DAL'],         'State': ['NY', 'TX']}df2 = pd.DataFrame(data2)# 提取 Site 代码df1['Site'] = df1['Hostname'].str.extract(r"Server([A-Z]{3})")# 合并 DataFramedf1 = pd.merge(df1, df2, on='Site', how='left')print(df1)

注意事项

正则表达式： 正确选择和编写正则表达式至关重要。正则表达式需要准确匹配目标文本，避免提取错误的数据。连接类型： how 参数决定了连接的类型。根据实际需求选择合适的连接类型，例如 left、right、inner、outer。缺失值处理： 如果在 df1 中提取的 Site 代码在 df2 中不存在，合并后的 City 和 State 列将会出现缺失值（NaN）。需要根据实际情况处理这些缺失值，例如填充默认值或删除包含缺失值的行。性能优化： 对于大型 DataFrame，使用矢量化操作（如 str.extract）通常比循环遍历更高效。错误处理: 确保代码能够处理 Hostname 列中不包含 “Server” 加上三个大写字母的情况，避免程序崩溃。可以使用 .fillna() 方法为这些情况设置默认值，或者使用条件语句跳过这些行。

总结

本文介绍了一种基于部分字符串匹配合并 Pandas DataFrames 的方法。通过提取关键文本并创建新的列，我们可以灵活地处理不完全匹配的连接情况。在实际应用中，需要根据具体的数据结构和业务需求，选择合适的正则表达式和连接类型，并注意处理可能出现的缺失值。

以上就是基于部分字符串匹配合并 Pandas DataFrames的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1374237.html

正则表达式

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

无休止进程克隆：PyInstaller打包Python截图脚本的解决方案

上一篇 2025年12月14日 13:58:52

基于部分匹配的 Pandas DataFrame 合并教程

下一篇 2025年12月14日 13:59:00

用户投稿

Python正则表达式：处理数字不同情况的替换

本文旨在帮助读者理解和解决在使用Python正则表达式进行数字替换时遇到的问题。通过具体示例，详细解释了如何正确匹配和替换不同格式的数字，避免常见的匹配陷阱，并提供可直接使用的代码示例。掌握这些技巧，能有效提高处理文本数据的效率和准确性。在使用Python的re模块进行字符串替换时，正则表达式的编…

程序猿
2026年5月10日
0000
用户投稿

使用JavaScript正则表达式验证DFA字符串

本文旨在探讨如何高效地使用javascript的内置正则表达式功能来验证符合特定确定性有限自动机（dfa）规则的字符串。我们将对比手动构建状态转换表的复杂性与利用正则表达式的简洁与强大，并通过具体代码示例展示如何将dfa的正则表达式直接应用于字符串验证，从而实现更可靠、易维护的解决方案。确定性有限…

程序猿
2026年5月10日
0000
用户投稿

高效处理Selenium抓取中的特殊HTML字符：JavaScript注入法

本教程旨在解决使用Selenium的.text方法抓取网页内容时，因保留不可见特殊HTML字符（如连字符、非断行空格等）导致的数据清洗难题。文章核心内容是介绍如何通过driver.execute_script方法注入JavaScript代码，在提取文本之前直接从DOM中移除这些包含特殊字符的HTML…

程序猿
2026年5月10日
0000
用户投稿

PHP中验证Base64编码字符串有效性的实用指南

本教程将详细介绍在PHP中如何有效验证Base64编码字符串的有效性，特别是针对常见的数据URI格式（如data:image/jpeg;base64,…）。我们将探讨利用base64_decode和base64_encode函数进行往返验证的核心技术，并提供实用的代码示例及重要注意事项，…

程序猿
2026年5月10日
0000
用户投稿

C++ 如何替换字符串中的部分内容_C++ 替换字符串内容的常用技巧

答案：C++中常用字符串替换方法包括使用find与replace循环替换所有匹配项，示例代码展示如何通过while循环查找并更新位置实现全局替换；单次替换只需查找第一个匹配并执行一次replace操作；若需忽略大小写，须自定义查找函数如findIgnoreCase进行字符转小写比较；对于模式匹配类替…

程序猿
2026年5月10日
1000
用户投稿

Nginx 子目录应用URI重写与参数传递教程

本教程详细阐述了如何在Nginx中为PHP应用实现子目录URI重写，特别是如何从请求URI中剥离子目录路径并将其余部分作为参数传递给主入口文件。通过try_files和rewrite指令的组合，本教程提供了一种高效且准确的解决方案，以替代Apache .htaccess的RewriteRule功能，…

程序猿
2026年5月10日
0000
用户投稿

python如何将列表转换为字符串_python列表与字符串相互转换技巧

将列表转换为字符串需用join()方法，确保元素均为字符串类型；含非字符串元素时应先用列表推导式结合str()转换。在Python中，将列表转换为字符串最常见且高效的方式是使用字符串的 join() 方法；而将字符串转换为列表，则主要依赖于字符串的 split() 方法，或者针对特定需求使用 li…

程序猿
2026年5月10日
2000
PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用

机器学习能超越传统方法的关键在于其对未知攻击的泛化识别能力。传统规则依赖已知模式，难以应对变种攻击；而机器学习通过分析代码的词法、句法、语义和数据流特征，构建抽象的行为模型，可识别未见过但模式相似的恶意代码。例如，即便攻击者使用编码或混淆技术，只要其数据流向敏感函数（如eval、system）的行为…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

Pandas教程：使用explode函数按分隔符拆分DataFrame行

本教程详细介绍了如何利用Pandas库中的str.split()和explode()函数，将DataFrame中某一列包含分隔符的单个字符串条目拆分成多行。通过将字符串转换为列表，再利用explode()展开列表元素，可以高效地实现数据规范化，将复杂数据结构转化为更易于分析的扁平化形式，并辅以代码示…

程序猿
2026年5月10日
3000
用户投稿

创建带约束的自定义类型：Go语言实践指南

本文介绍了如何在 Go 语言中创建自定义类型，并限制其可接受的值。通过示例代码，展示了两种实现方式：使用结构体和使用类型别名，并讨论了各自的优缺点。帮助开发者构建更健壮、更安全的代码。 Go 语言允许开发者创建自定义类型，以增强代码的可读性和类型安全性。然而，有时我们需要更进一步，限制自定义类型可以…

程序猿
2026年5月10日
0000
用户投稿

Go语言：高效移除字符串后缀或文件扩展名

本文详细介绍了在Go语言中如何使用strings.TrimSuffix和filepath.Ext函数，安全且高效地从字符串中移除文件扩展名。通过示例代码，读者将学习如何提取文件的基础名称，并了解处理不同文件命名情况的注意事项。在go语言的日常开发中，我们经常会遇到需要处理文件路径或文件名字符串的场…

程序猿
2026年5月10日
0000
用户投稿

如何用JavaScript进行自然语言处理（NLP）的基础任务？

JavaScript可通过正则和专用库实现分词、停用词过滤、词干提取、情感分析、关键词提取及实体识别等基础NLP任务，适用于浏览器或Node.js环境。1. 英文分词可用正则处理，中文推荐nodejieba或compromise；2. 停用词过滤通过集合排除常见虚词，词干提取借助natural库的P…

程序猿
2026年5月10日
0000
用户投稿

C++ Boost库怎么安装使用_C++准标准库核心功能解析

Boost库是C++中功能强大的“准标准库”，提供智能指针、正则表达式、文件系统、多线程等丰富功能，提升开发效率。安装方式因平台而异：Windows可使用vcpkg或预编译包，Linux（如Ubuntu）通过sudo apt install libboost-all-dev安装，macOS用Home…

程序猿
2026年5月10日
0000
用户投稿

JavaScript：将字符串转换为数组

本文介绍了如何使用 JavaScript 将特定格式的字符串转换为二维数组。通过字符串处理和正则表达式，我们将原始字符串分解为可访问的数组结构，方便后续的数据处理和操作。在 JavaScript 开发中，经常会遇到需要将字符串转换为数组的情况。当字符串具有特定的结构，例如包含多个子数组时，我们需要…

程序猿
2026年5月10日
2000
用户投稿

c++怎么替换字符串中的子串_c++字符串替换方法详解

答案：C++中替换字符串子串可通过find和replace组合实现单次替换，循环结合pos更新可完成全局替换，封装成函数提高复用性，复杂模式可用正则regex_replace处理。在C++中，替换字符串中的子串是一个常见的操作。虽然标准库没有直接提供像Python中replace那样的全局替换函数…

程序猿
2026年5月10日
0000
用户投稿

在非域根路径场景下，如何精确获取网站的有效根路径

本文探讨在文档构建器等动态环境中，`window.location.origin`无法准确获取网站有效根路径的问题。针对readthedocs等平台，通过发起http `head`请求并追踪重定向，可以异步获取到实际的基准url，从而解决版本切换时页面重定向到正确根目录的需求。这种方法尤其适用于ci…

程序猿
2026年5月10日
0000
用户投稿

JavaScript对象属性非空校验：字符串与数组的高效验证

本文介绍一种高效方法，用于校验JavaScript对象中的字符串和数组属性是否为空。通过结合使用Object.values()和Array.prototype.every()方法，能够简洁地遍历对象的所有值，并确保所有字符串和数组类型的属性都具有非零长度，从而实现快速、可靠的数据验证。引言：对象属…

程序猿
2026年5月10日
0000
用户投稿

隐藏段落中超过9位数字的电话号码，并排除标签内的号码

本文介绍如何使用 jQuery 脚本隐藏 HTML 段落（标签）中超过 9 位的数字，同时排除包含在标签内的数字。我们将提供一个示例代码，演示如何实现这一功能，并解释代码的工作原理。解决方案以下代码片段展示了如何使用 jQuery 实现隐藏段落中超过 9 位数字的电话号码，并排除标签内的号…

程序猿
2026年5月10日
2000
用户投稿

PHP内部函数是什么

PHP内部函数是PHP语言内置的、由C语言编写的核心函数，无需引入即可直接使用，具有高效性、跨平台性和易用性。它们在PHP启动时自动加载，涵盖字符串处理（如strlen）、数组操作（如array_push）、文件读写（如file_get_contents）、时间管理（如time）和数据编码（如jso…

程序猿
2026年5月10日
0000
用户投稿

ThinkPHP框架怎么使用验证器_ThinkPHP数据验证规则与场景配置

ThinkPHP验证器用于数据校验，提升系统健壮性。通过继承thinkValidate创建自定义验证器，如UserValidate定义用户名、邮箱、密码规则及提示信息；在控制器中实例化并调用check方法进行验证，失败返回错误信息。内置丰富规则：require（必填）、number/integer（…

程序猿
2026年5月10日
1000

发表回复

登录后才能评论