基于部分匹配的 Pandas DataFrame 合并教程

基于部分匹配的 pandas dataframe 合并教程

本文旨在介绍如何使用 Pandas 库,基于一个 DataFrame 列中的部分文本匹配另一个 DataFrame 的列,从而实现高效的数据合并。通过提取关键信息并进行连接,最终得到包含完整信息的目标 DataFrame。本文将提供详细的代码示例和步骤说明,帮助读者掌握这种常用的数据处理技巧。

在数据分析和处理中,经常会遇到需要将两个 DataFrame 基于某些关联字段进行合并的情况。但有时,关联字段并非完全一致,而是存在部分匹配的关系。例如,一个 DataFrame 的某一列包含完整的 ID 信息,而另一个 DataFrame 的某一列只包含 ID 的一部分,这时就需要采用一些技巧来实现数据的合并。

以下将通过一个具体的例子,演示如何使用 Pandas 库来实现这种基于部分匹配的 DataFrame 合并。

示例数据

假设我们有两个 DataFrame,df1 和 df2。

df1 包含主机名(Hostname)、区域(Region)和型号(Model)信息:

import pandas as pddata1 = {'Hostname': ['ServerABC101', 'ServerABC102', 'ServerDDC103', 'ServerDDC609', 'ServerDDC103', 'ServerDDC609'],         'Region': ['US', 'US', 'PAC', 'Emea', 'PAC', 'Emea'],         'Model': ['Cisco', 'Cisco', 'Intel', 'Intel', 'Intel', 'Intel']}df1 = pd.DataFrame(data1)print("DataFrame df1:n", df1)

df2 包含站点(Site)、城市(City)和州(State)信息:

data2 = {'Site': ['ABC', 'DDC'],         'City': ['NYC', 'DAL'],         'State': ['NY', 'TX']}df2 = pd.DataFrame(data2)print("nDataFrame df2:n", df2)

我们的目标是将 df1 和 df2 基于 df1[‘Hostname’] 中的部分文本(站点代码)与 df2[‘Site’] 进行匹配,最终得到一个包含所有信息的 DataFrame。

解决方案

提取站点代码:

首先,我们需要从 df1[‘Hostname’] 中提取出站点代码。假设站点代码是由 “Server” 后面的三个大写字母组成,我们可以使用正则表达式来实现:

df1['Site'] = df1['Hostname'].str.extract(r"Server([A-Z]{3})")print("nDataFrame df1 with extracted Site:n", df1)

str.extract(r”Server([A-Z]{3})”) 的作用是:

str.extract(): 用于从字符串列中提取匹配正则表达式的部分。r”Server([A-Z]{3})”: 这是一个正则表达式,用于匹配以 “Server” 开头,后跟三个大写字母的字符串。括号 () 用于捕获这三个大写字母,也就是我们需要的站点代码。

合并 DataFrame:

现在,我们已经提取出了 df1 中的站点代码,可以基于 Site 列将 df1 和 df2 进行合并。使用 pd.merge() 函数,并将 how 参数设置为 ‘left’,以保留 df1 中的所有行:

df1 = pd.merge(df1, df2, on='Site', how='left')print("nFinal Merged DataFrame:n", df1)

pd.merge(df1, df2, on=’Site’, how=’left’) 的作用是:

pd.merge(): 用于合并两个 DataFrame。on=’Site’: 指定基于 Site 列进行合并。how=’left’: 指定合并方式为左连接,即保留左侧 DataFrame (df1) 的所有行,并将右侧 DataFrame (df2) 中匹配的行添加到左侧 DataFrame。如果右侧 DataFrame 中没有匹配的行,则添加的列将填充为 NaN。

完整代码

import pandas as pd# 创建 DataFrame df1data1 = {'Hostname': ['ServerABC101', 'ServerABC102', 'ServerDDC103', 'ServerDDC609', 'ServerDDC103', 'ServerDDC609'],         'Region': ['US', 'US', 'PAC', 'Emea', 'PAC', 'Emea'],         'Model': ['Cisco', 'Cisco', 'Intel', 'Intel', 'Intel', 'Intel']}df1 = pd.DataFrame(data1)# 创建 DataFrame df2data2 = {'Site': ['ABC', 'DDC'],         'City': ['NYC', 'DAL'],         'State': ['NY', 'TX']}df2 = pd.DataFrame(data2)# 提取站点代码df1['Site'] = df1['Hostname'].str.extract(r"Server([A-Z]{3})")# 合并 DataFramedf1 = pd.merge(df1, df2, on='Site', how='left')# 打印结果print(df1)

注意事项

正则表达式: 正则表达式的编写需要根据实际情况进行调整。如果站点代码的规则不同,需要修改正则表达式以正确提取。合并方式: how 参数可以设置为 ‘left’、’right’、’inner’ 或 ‘outer’,根据实际需求选择合适的合并方式。缺失值处理: 如果 df2 中没有与 df1 匹配的站点代码,合并后的 DataFrame 中相应的列将填充为 NaN。可以根据实际情况选择合适的缺失值处理方法,例如使用 fillna() 函数填充缺失值。

总结

本文介绍了如何使用 Pandas 库,基于部分匹配的文本数据合并 DataFrame。通过提取关键信息和灵活运用 pd.merge() 函数,可以高效地完成数据的整合。这种方法在实际数据处理中非常实用,可以解决许多复杂的数据合并问题。掌握这些技巧,能够显著提升数据分析的效率。

以上就是基于部分匹配的 Pandas DataFrame 合并教程的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1374239.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
基于部分字符串匹配合并 Pandas DataFrames
上一篇 2025年12月14日 13:58:55
解决PySpark查询中的Column Ambiguous错误
下一篇 2025年12月14日 13:59:06

相关推荐

  • Python正则表达式:处理数字不同情况的替换

    本文旨在帮助读者理解和解决在使用Python正则表达式进行数字替换时遇到的问题。通过具体示例,详细解释了如何正确匹配和替换不同格式的数字,避免常见的匹配陷阱,并提供可直接使用的代码示例。掌握这些技巧,能有效提高处理文本数据的效率和准确性。 在使用Python的re模块进行字符串替换时,正则表达式的编…

    2026年5月10日
    000
  • 使用JavaScript正则表达式验证DFA字符串

    本文旨在探讨如何高效地使用javascript的内置正则表达式功能来验证符合特定确定性有限自动机(dfa)规则的字符串。我们将对比手动构建状态转换表的复杂性与利用正则表达式的简洁与强大,并通过具体代码示例展示如何将dfa的正则表达式直接应用于字符串验证,从而实现更可靠、易维护的解决方案。 确定性有限…

    2026年5月10日
    000
  • 高效处理Selenium抓取中的特殊HTML字符:JavaScript注入法

    本教程旨在解决使用Selenium的.text方法抓取网页内容时,因保留不可见特殊HTML字符(如连字符、非断行空格等)导致的数据清洗难题。文章核心内容是介绍如何通过driver.execute_script方法注入JavaScript代码,在提取文本之前直接从DOM中移除这些包含特殊字符的HTML…

    2026年5月10日
    000
  • PHP中验证Base64编码字符串有效性的实用指南

    本教程将详细介绍在PHP中如何有效验证Base64编码字符串的有效性,特别是针对常见的数据URI格式(如data:image/jpeg;base64,…)。我们将探讨利用base64_decode和base64_encode函数进行往返验证的核心技术,并提供实用的代码示例及重要注意事项,…

    2026年5月10日
    000
  • C++ 如何替换字符串中的部分内容_C++ 替换字符串内容的常用技巧

    答案:C++中常用字符串替换方法包括使用find与replace循环替换所有匹配项,示例代码展示如何通过while循环查找并更新位置实现全局替换;单次替换只需查找第一个匹配并执行一次replace操作;若需忽略大小写,须自定义查找函数如findIgnoreCase进行字符转小写比较;对于模式匹配类替…

    2026年5月10日
    100
  • Nginx 子目录应用URI重写与参数传递教程

    本教程详细阐述了如何在Nginx中为PHP应用实现子目录URI重写,特别是如何从请求URI中剥离子目录路径并将其余部分作为参数传递给主入口文件。通过try_files和rewrite指令的组合,本教程提供了一种高效且准确的解决方案,以替代Apache .htaccess的RewriteRule功能,…

    2026年5月10日
    000
  • python如何将列表转换为字符串_python列表与字符串相互转换技巧

    将列表转换为字符串需用join()方法,确保元素均为字符串类型;含非字符串元素时应先用列表推导式结合str()转换。 在Python中,将列表转换为字符串最常见且高效的方式是使用字符串的 join() 方法;而将字符串转换为列表,则主要依赖于字符串的 split() 方法,或者针对特定需求使用 li…

    2026年5月10日
    200
  • PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用

    PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用

    机器学习能超越传统方法的关键在于其对未知攻击的泛化识别能力。传统规则依赖已知模式,难以应对变种攻击;而机器学习通过分析代码的词法、句法、语义和数据流特征,构建抽象的行为模型,可识别未见过但模式相似的恶意代码。例如,即便攻击者使用编码或混淆技术,只要其数据流向敏感函数(如eval、system)的行为…

    2026年5月10日 用户投稿
    000
  • Pandas教程:使用explode函数按分隔符拆分DataFrame行

    本教程详细介绍了如何利用Pandas库中的str.split()和explode()函数,将DataFrame中某一列包含分隔符的单个字符串条目拆分成多行。通过将字符串转换为列表,再利用explode()展开列表元素,可以高效地实现数据规范化,将复杂数据结构转化为更易于分析的扁平化形式,并辅以代码示…

    2026年5月10日
    300
  • 创建带约束的自定义类型:Go语言实践指南

    本文介绍了如何在 Go 语言中创建自定义类型,并限制其可接受的值。通过示例代码,展示了两种实现方式:使用结构体和使用类型别名,并讨论了各自的优缺点。帮助开发者构建更健壮、更安全的代码。 Go 语言允许开发者创建自定义类型,以增强代码的可读性和类型安全性。然而,有时我们需要更进一步,限制自定义类型可以…

    2026年5月10日
    000
  • Go语言:高效移除字符串后缀或文件扩展名

    本文详细介绍了在Go语言中如何使用strings.TrimSuffix和filepath.Ext函数,安全且高效地从字符串中移除文件扩展名。通过示例代码,读者将学习如何提取文件的基础名称,并了解处理不同文件命名情况的注意事项。 在go语言的日常开发中,我们经常会遇到需要处理文件路径或文件名字符串的场…

    2026年5月10日
    000
  • 如何用JavaScript进行自然语言处理(NLP)的基础任务?

    JavaScript可通过正则和专用库实现分词、停用词过滤、词干提取、情感分析、关键词提取及实体识别等基础NLP任务,适用于浏览器或Node.js环境。1. 英文分词可用正则处理,中文推荐nodejieba或compromise;2. 停用词过滤通过集合排除常见虚词,词干提取借助natural库的P…

    2026年5月10日
    000
  • C++ Boost库怎么安装使用_C++准标准库核心功能解析

    Boost库是C++中功能强大的“准标准库”,提供智能指针、正则表达式、文件系统、多线程等丰富功能,提升开发效率。安装方式因平台而异:Windows可使用vcpkg或预编译包,Linux(如Ubuntu)通过sudo apt install libboost-all-dev安装,macOS用Home…

    2026年5月10日
    000
  • JavaScript:将字符串转换为数组

    本文介绍了如何使用 JavaScript 将特定格式的字符串转换为二维数组。通过字符串处理和正则表达式,我们将原始字符串分解为可访问的数组结构,方便后续的数据处理和操作。 在 JavaScript 开发中,经常会遇到需要将字符串转换为数组的情况。当字符串具有特定的结构,例如包含多个子数组时,我们需要…

    2026年5月10日
    200
  • c++怎么替换字符串中的子串_c++字符串替换方法详解

    答案:C++中替换字符串子串可通过find和replace组合实现单次替换,循环结合pos更新可完成全局替换,封装成函数提高复用性,复杂模式可用正则regex_replace处理。 在C++中,替换字符串中的子串是一个常见的操作。虽然标准库没有直接提供像Python中replace那样的全局替换函数…

    2026年5月10日
    000
  • 在非域根路径场景下,如何精确获取网站的有效根路径

    本文探讨在文档构建器等动态环境中,`window.location.origin`无法准确获取网站有效根路径的问题。针对readthedocs等平台,通过发起http `head`请求并追踪重定向,可以异步获取到实际的基准url,从而解决版本切换时页面重定向到正确根目录的需求。这种方法尤其适用于ci…

    2026年5月10日
    000
  • JavaScript对象属性非空校验:字符串与数组的高效验证

    本文介绍一种高效方法,用于校验JavaScript对象中的字符串和数组属性是否为空。通过结合使用Object.values()和Array.prototype.every()方法,能够简洁地遍历对象的所有值,并确保所有字符串和数组类型的属性都具有非零长度,从而实现快速、可靠的数据验证。 引言:对象属…

    2026年5月10日
    000
  • 隐藏段落中超过9位数字的电话号码,并排除标签内的号码

    本文介绍如何使用 jQuery 脚本隐藏 HTML 段落( 标签)中超过 9 位的数字,同时排除包含在 标签内的数字。我们将提供一个示例代码,演示如何实现这一功能,并解释代码的工作原理。 解决方案 以下代码片段展示了如何使用 jQuery 实现隐藏段落中超过 9 位数字的电话号码,并排除 标签内的号…

    2026年5月10日
    200
  • PHP内部函数是什么

    PHP内部函数是PHP语言内置的、由C语言编写的核心函数,无需引入即可直接使用,具有高效性、跨平台性和易用性。它们在PHP启动时自动加载,涵盖字符串处理(如strlen)、数组操作(如array_push)、文件读写(如file_get_contents)、时间管理(如time)和数据编码(如jso…

    2026年5月10日
    000
  • ThinkPHP框架怎么使用验证器_ThinkPHP数据验证规则与场景配置

    ThinkPHP验证器用于数据校验,提升系统健壮性。通过继承thinkValidate创建自定义验证器,如UserValidate定义用户名、邮箱、密码规则及提示信息;在控制器中实例化并调用check方法进行验证,失败返回错误信息。内置丰富规则:require(必填)、number/integer(…

    2026年5月10日
    100

发表回复

登录后才能评论
关注微信