基于部分匹配的 Pandas DataFrame 合并：提取与合并技巧

程序猿 • 2025年12月14日 14:01:18 • 用户投稿 • 阅读 0

本文旨在介绍如何使用 Pandas 库，在两个 DataFrame 中，当一个 DataFrame 的列包含另一个 DataFrame 列的部分文本时，实现高效的数据合并。通过正则表达式提取关键信息，并结合 Pandas 的 merge 函数，提供了一种灵活且强大的数据处理方法。

在数据分析工作中，经常会遇到需要合并两个 DataFrame 的情况。但有时，两个 DataFrame 之间没有完全匹配的列，而是存在部分匹配的关系。例如，一个 DataFrame 的某一列包含另一个 DataFrame 列的部分文本信息。针对这种情况，我们可以使用 Pandas 结合正则表达式来提取关键信息，然后进行合并。

以下是一个详细的步骤指南，展示如何使用 Pandas 来完成这个任务。

1. 数据准备

首先，我们需要创建两个示例 DataFrame，模拟实际场景中的数据结构。

import pandas as pd# 创建第一个 DataFrame (df1)data1 = {'Hostname': ['ServerABC101', 'ServerABC102', 'ServerDDC103', 'ServerDDC609', 'ServerDDC103', 'ServerDDC609'],         'Region': ['US', 'US', 'PAC', 'Emea', 'PAC', 'Emea'],         'Model': ['Cisco', 'Cisco', 'Intel', 'Intel', 'Intel', 'Intel']}df1 = pd.DataFrame(data1)# 创建第二个 DataFrame (df2)data2 = {'Site': ['ABC', 'DDC'],         'City': ['NYC', 'DAL'],         'State': ['NY', 'TX']}df2 = pd.DataFrame(data2)print("DataFrame df1:n", df1)print("nDataFrame df2:n", df2)

2. 提取关键信息

核心思路是使用正则表达式从 df1[‘Hostname’] 列中提取出与 df2[‘Site’] 列匹配的部分。这里假设 df1[‘Hostname’] 中包含 Server 前缀，后跟三个大写字母，这三个字母对应于 df2[‘Site’] 的值。

# 使用正则表达式提取 Site 代码df1['Site'] = df1['Hostname'].str.extract(r"Server([A-Z]{3})")print("nDataFrame df1 after extracting Site:n", df1)

这段代码使用 str.extract() 方法和正则表达式 r”Server([A-Z]{3})” 从 Hostname 列中提取 Site 代码。正则表达式的含义是：

Server: 匹配字符串 “Server”。([A-Z]{3}): 匹配三个大写字母，并将其捕获到一个分组中。str.extract() 方法会返回这个分组的内容。

3. 数据合并

现在，df1 已经有了一个新的 Site 列，我们可以使用 pd.merge() 函数将 df1 和 df2 合并。

# 合并 DataFramedf1 = pd.merge(df1, df2, on='Site', how='left')print("nFinal DataFrame:n", df1)

这里使用 how=’left’ 进行左连接，保留 df1 中的所有行，并将 df2 中匹配的行添加到 df1 中。如果 df1 中的 Site 在 df2 中没有匹配项，则相应的列将填充 NaN 值。

4. 完整代码示例

import pandas as pd# 创建第一个 DataFrame (df1)data1 = {'Hostname': ['ServerABC101', 'ServerABC102', 'ServerDDC103', 'ServerDDC609', 'ServerDDC103', 'ServerDDC609'],         'Region': ['US', 'US', 'PAC', 'Emea', 'PAC', 'Emea'],         'Model': ['Cisco', 'Cisco', 'Intel', 'Intel', 'Intel', 'Intel']}df1 = pd.DataFrame(data1)# 创建第二个 DataFrame (df2)data2 = {'Site': ['ABC', 'DDC'],         'City': ['NYC', 'DAL'],         'State': ['NY', 'TX']}df2 = pd.DataFrame(data2)# 使用正则表达式提取 Site 代码df1['Site'] = df1['Hostname'].str.extract(r"Server([A-Z]{3})")# 合并 DataFramedf1 = pd.merge(df1, df2, on='Site', how='left')print(df1)

5. 注意事项与总结

正则表达式的准确性： 正则表达式必须准确匹配需要提取的文本模式。如果 Hostname 的格式发生变化，需要相应地调整正则表达式。how 参数的选择： pd.merge() 函数的 how 参数决定了合并的方式。根据实际需求选择合适的连接方式（left、right、inner、outer）。数据清洗： 在提取和合并之前，可能需要对数据进行清洗，例如处理缺失值、统一数据类型等。性能优化： 对于大型 DataFrame，可以考虑使用更高效的字符串处理方法或优化正则表达式，以提高性能。

通过以上步骤，我们可以有效地利用 Pandas 和正则表达式，在存在部分匹配关系的情况下，成功合并两个 DataFrame，为后续的数据分析和处理奠定基础。这种方法具有很强的灵活性，可以根据实际情况调整正则表达式和合并策略，适应不同的数据结构和需求。

以上就是基于部分匹配的 Pandas DataFrame 合并：提取与合并技巧的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1374287.html

数据清洗正则表达式

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

无限进程克隆：PyInstaller打包Python截图脚本的解决方案

上一篇 2025年12月14日 14:01:13

Python程序打包后进程无限复制的解决方案

下一篇 2025年12月14日 14:01:27

用户投稿

Python正则表达式：处理数字不同情况的替换

本文旨在帮助读者理解和解决在使用Python正则表达式进行数字替换时遇到的问题。通过具体示例，详细解释了如何正确匹配和替换不同格式的数字，避免常见的匹配陷阱，并提供可直接使用的代码示例。掌握这些技巧，能有效提高处理文本数据的效率和准确性。在使用Python的re模块进行字符串替换时，正则表达式的编…

程序猿
2026年5月10日
0000
用户投稿

使用JavaScript正则表达式验证DFA字符串

本文旨在探讨如何高效地使用javascript的内置正则表达式功能来验证符合特定确定性有限自动机（dfa）规则的字符串。我们将对比手动构建状态转换表的复杂性与利用正则表达式的简洁与强大，并通过具体代码示例展示如何将dfa的正则表达式直接应用于字符串验证，从而实现更可靠、易维护的解决方案。确定性有限…

程序猿
2026年5月10日
0000
用户投稿

Pandas：基于条件和 Groupby 替换列中的特定字符

本文介绍了如何使用 Pandas 库，结合 groupby 函数和字符串操作，根据特定条件替换 DataFrame 列中的字符。通过累积计数和字典映射，能够灵活地修改列中的特定部分，并根据替换值调整相关文本，实现数据清洗和转换的目的。在数据分析和处理中，经常需要根据特定条件修改 DataFrame…

程序猿
2026年5月10日
0000
用户投稿

高效处理Selenium抓取中的特殊HTML字符：JavaScript注入法

本教程旨在解决使用Selenium的.text方法抓取网页内容时，因保留不可见特殊HTML字符（如连字符、非断行空格等）导致的数据清洗难题。文章核心内容是介绍如何通过driver.execute_script方法注入JavaScript代码，在提取文本之前直接从DOM中移除这些包含特殊字符的HTML…

程序猿
2026年5月10日
0000
用户投稿

PHP中验证Base64编码字符串有效性的实用指南

本教程将详细介绍在PHP中如何有效验证Base64编码字符串的有效性，特别是针对常见的数据URI格式（如data:image/jpeg;base64,…）。我们将探讨利用base64_decode和base64_encode函数进行往返验证的核心技术，并提供实用的代码示例及重要注意事项，…

程序猿
2026年5月10日
0000
用户投稿

C++ 如何替换字符串中的部分内容_C++ 替换字符串内容的常用技巧

答案：C++中常用字符串替换方法包括使用find与replace循环替换所有匹配项，示例代码展示如何通过while循环查找并更新位置实现全局替换；单次替换只需查找第一个匹配并执行一次replace操作；若需忽略大小写，须自定义查找函数如findIgnoreCase进行字符转小写比较；对于模式匹配类替…

程序猿
2026年5月10日
1000
用户投稿

Nginx 子目录应用URI重写与参数传递教程

本教程详细阐述了如何在Nginx中为PHP应用实现子目录URI重写，特别是如何从请求URI中剥离子目录路径并将其余部分作为参数传递给主入口文件。通过try_files和rewrite指令的组合，本教程提供了一种高效且准确的解决方案，以替代Apache .htaccess的RewriteRule功能，…

程序猿
2026年5月10日
0000
用户投稿

python如何将列表转换为字符串_python列表与字符串相互转换技巧

将列表转换为字符串需用join()方法，确保元素均为字符串类型；含非字符串元素时应先用列表推导式结合str()转换。在Python中，将列表转换为字符串最常见且高效的方式是使用字符串的 join() 方法；而将字符串转换为列表，则主要依赖于字符串的 split() 方法，或者针对特定需求使用 li…

程序猿
2026年5月10日
2000
PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用

机器学习能超越传统方法的关键在于其对未知攻击的泛化识别能力。传统规则依赖已知模式，难以应对变种攻击；而机器学习通过分析代码的词法、句法、语义和数据流特征，构建抽象的行为模型，可识别未见过但模式相似的恶意代码。例如，即便攻击者使用编码或混淆技术，只要其数据流向敏感函数（如eval、system）的行为…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

Pandas教程：使用explode函数按分隔符拆分DataFrame行

本教程详细介绍了如何利用Pandas库中的str.split()和explode()函数，将DataFrame中某一列包含分隔符的单个字符串条目拆分成多行。通过将字符串转换为列表，再利用explode()展开列表元素，可以高效地实现数据规范化，将复杂数据结构转化为更易于分析的扁平化形式，并辅以代码示…

程序猿
2026年5月10日
3000
用户投稿

创建带约束的自定义类型：Go语言实践指南

本文介绍了如何在 Go 语言中创建自定义类型，并限制其可接受的值。通过示例代码，展示了两种实现方式：使用结构体和使用类型别名，并讨论了各自的优缺点。帮助开发者构建更健壮、更安全的代码。 Go 语言允许开发者创建自定义类型，以增强代码的可读性和类型安全性。然而，有时我们需要更进一步，限制自定义类型可以…

程序猿
2026年5月10日
0000
用户投稿

Go语言：高效移除字符串后缀或文件扩展名

本文详细介绍了在Go语言中如何使用strings.TrimSuffix和filepath.Ext函数，安全且高效地从字符串中移除文件扩展名。通过示例代码，读者将学习如何提取文件的基础名称，并了解处理不同文件命名情况的注意事项。在go语言的日常开发中，我们经常会遇到需要处理文件路径或文件名字符串的场…

程序猿
2026年5月10日
0000
用户投稿

C++ Boost库怎么安装使用_C++准标准库核心功能解析

Boost库是C++中功能强大的“准标准库”，提供智能指针、正则表达式、文件系统、多线程等丰富功能，提升开发效率。安装方式因平台而异：Windows可使用vcpkg或预编译包，Linux（如Ubuntu）通过sudo apt install libboost-all-dev安装，macOS用Home…

程序猿
2026年5月10日
0000
用户投稿

如何用JavaScript进行自然语言处理（NLP）的基础任务？

JavaScript可通过正则和专用库实现分词、停用词过滤、词干提取、情感分析、关键词提取及实体识别等基础NLP任务，适用于浏览器或Node.js环境。1. 英文分词可用正则处理，中文推荐nodejieba或compromise；2. 停用词过滤通过集合排除常见虚词，词干提取借助natural库的P…

程序猿
2026年5月10日
0000
用户投稿

c++怎么替换字符串中的子串_c++字符串替换方法详解

答案：C++中替换字符串子串可通过find和replace组合实现单次替换，循环结合pos更新可完成全局替换，封装成函数提高复用性，复杂模式可用正则regex_replace处理。在C++中，替换字符串中的子串是一个常见的操作。虽然标准库没有直接提供像Python中replace那样的全局替换函数…

程序猿
2026年5月10日
0000
用户投稿

JavaScript：将字符串转换为数组

本文介绍了如何使用 JavaScript 将特定格式的字符串转换为二维数组。通过字符串处理和正则表达式，我们将原始字符串分解为可访问的数组结构，方便后续的数据处理和操作。在 JavaScript 开发中，经常会遇到需要将字符串转换为数组的情况。当字符串具有特定的结构，例如包含多个子数组时，我们需要…

程序猿
2026年5月10日
2000
用户投稿

在非域根路径场景下，如何精确获取网站的有效根路径

本文探讨在文档构建器等动态环境中，`window.location.origin`无法准确获取网站有效根路径的问题。针对readthedocs等平台，通过发起http `head`请求并追踪重定向，可以异步获取到实际的基准url，从而解决版本切换时页面重定向到正确根目录的需求。这种方法尤其适用于ci…

程序猿
2026年5月10日
0000
用户投稿

JavaScript对象属性非空校验：字符串与数组的高效验证

本文介绍一种高效方法，用于校验JavaScript对象中的字符串和数组属性是否为空。通过结合使用Object.values()和Array.prototype.every()方法，能够简洁地遍历对象的所有值，并确保所有字符串和数组类型的属性都具有非零长度，从而实现快速、可靠的数据验证。引言：对象属…

程序猿
2026年5月10日
0000
用户投稿

隐藏段落中超过9位数字的电话号码，并排除标签内的号码

本文介绍如何使用 jQuery 脚本隐藏 HTML 段落（标签）中超过 9 位的数字，同时排除包含在标签内的数字。我们将提供一个示例代码，演示如何实现这一功能，并解释代码的工作原理。解决方案以下代码片段展示了如何使用 jQuery 实现隐藏段落中超过 9 位数字的电话号码，并排除标签内的号…

程序猿
2026年5月10日
2000
用户投稿

从列表中移除 Undefined 值的实用指南

本文旨在提供一种简洁有效的方法，从包含潜在 `undefined` 值的列表中移除这些值，确保数据清洗和输出的准确性。通过使用 JavaScript 的 `filter` 方法，可以轻松地过滤掉 `undefined` 值，从而获得一个干净的数据列表。在 JavaScript 开发中，处理来自 D…

程序猿
2026年5月10日
0000

发表回复

登录后才能评论

基于部分匹配的 Pandas DataFrame 合并：提取与合并技巧

关于作者

相关推荐

发表回复