Python中基于文本匹配JSON数据并提取关联URL信息

程序猿 • 2025年12月14日 16:06:17 • 用户投稿 • 阅读 2

本教程详细介绍了如何使用Python处理JSON和文本文件，通过正则表达式从文本中提取特定模式的设备名称，并以此名称作为键，在JSON结构化数据中查找匹配项，最终提取并展示关联的URL信息。文章涵盖了文件读写、JSON解析、正则表达式应用及数据遍历等核心技术，旨在提供一个高效、实用的数据整合解决方案。

1. 概述

在日常数据处理中，我们经常会遇到需要从非结构化文本中提取关键信息，并将其与结构化数据（如json）进行关联匹配的场景。本教程将以一个具体示例，演示如何利用python的json模块进行json数据解析，re模块进行正则表达式匹配，从而实现从纯文本文件中识别设备名称，并在一个包含设备详细信息的json文件中找到对应的记录，最终提取出所需的url字段。

2. 准备工作

在开始编写代码之前，我们需要准备两个示例文件：一个JSON文件（test.json）和一个纯文本文件（test.txt）。

2.1 JSON文件 (test.json)

这个文件包含了多个设备的信息，每个设备都有一个唯一的名称和多个关联的URL。

{  "results": [    {      "url": "https://api.server.com/cables/100/",      "termination_a": {        "url": "https://api.server.com/interfaces/250/",        "device": {          "url": "https://api.server.com/devices/10/",          "display": "device-number1-2023-08 myname (1718)",          "name": "device-number1-2023-08 myname1"        }      }    },    {      "url": "https://api.server.com/cables/200/",      "termination_a": {        "url": "https://api.server.com/interfaces/160/",        "device": {          "url": "https://api.server.com/devices/22/",          "display": "device-number3-2023-08 myname (2245)",          "name": "device-number3-2023-08 myname3"        }      }    },    {      "url": "https://api.server.com/cables/300/",      "termination_a": {        "url": "https://api.server.com/interfaces/260/",        "device": {          "url": "https://api.server.com/devices/73/",          "display": "device-number8-2023-08 myname (3678)",          "name": "device-number8-2023-08 myname8"        }      }    }  ]}

2.2 文本文件 (test.txt)

这个文件包含了一些描述性文本，其中嵌入了我们想要匹配的设备名称。

this is device-number1-2023-08 myname1 and it is good.this is device-number8-2023-08 myname8 and it is.this is device-number3-2023-08 myname3 and it is not good.this is an unmatched-device-name and it is irrelevant.

3. 实现步骤与代码

我们将通过以下步骤实现目标：

立即学习“Python免费学习笔记（深入）”；

读取并解析JSON文件。读取文本文件内容。使用正则表达式从文本内容中提取所有设备名称。遍历JSON数据，将JSON中的设备名称与从文本中提取的名称进行比对。如果名称匹配，则打印出JSON中对应的URL信息。

3.1 示例代码

import jsonimport redef find_and_extract_urls(json_filepath, text_filepath):    """    从文本文件中提取设备名称，并在JSON文件中查找匹配的设备，    然后打印出关联的URL信息。    Args:        json_filepath (str): JSON文件的路径。        text_filepath (str): 文本文件的路径。    """    # 1. 读取并解析JSON文件    try:        with open(json_filepath, 'r', encoding='utf-8') as json_file:            json_data = json.load(json_file)    except FileNotFoundError:        print(f"错误: 未找到JSON文件 '{json_filepath}'")        return    except json.JSONDecodeError:        print(f"错误: JSON文件 '{json_filepath}' 格式不正确")        return    # 2. 读取文本文件内容    try:        with open(text_filepath, 'r', encoding='utf-8') as text_file:            text_content = text_file.read()    except FileNotFoundError:        print(f"错误: 未找到文本文件 '{text_filepath}'")        return    # 3. 使用正则表达式从文本内容中提取所有设备名称    # 正则表达式解释:    # (device-w+-d+-d+ w+): 捕获组，匹配 'device-' 开头，    # 接着是任意单词字符 (w+)，然后是两个数字组 (d+)，    # 最后是一个空格和任意单词字符 (w+)。    # 示例匹配: "device-number1-2023-08 myname1"    txt_device_names = re.findall(r"(device-w+-d+-d+ w+)", text_content)    # 将提取到的名称转换为集合，以便O(1)时间复杂度进行查找，提高效率    txt_device_names_set = set(txt_device_names)    print(f"从文本文件 '{text_filepath}' 中提取到的设备名称: {txt_device_names_set}n")    # 4. 遍历JSON数据，查找匹配项并提取URL    found_matches = False    for item in json_data.get("results", []): # 使用.get()处理'results'键可能不存在的情况        device_info = item.get("termination_a", {}).get("device", {})        json_device_name = device_info.get("name")        if json_device_name and json_device_name in txt_device_names_set:            found_matches = True            print(f"匹配成功！设备名称 --> {json_device_name}")            print(f"  根URL: {item.get('url', 'N/A')}")            print(f"  termination_a URL: {item.get('termination_a', {}).get('url', 'N/A')}")            # 如果需要，还可以打印其他URL，例如 termination_a device URL            # print(f"  termination_a device URL: {device_info.get('url', 'N/A')}")            print("-" * 30)    if not found_matches:        print("未找到任何匹配的设备名称。")# 调用函数执行匹配和提取if __name__ == "__main__":    json_file_path = 'test.json'    text_file_path = 'test.txt'    find_and_extract_urls(json_file_path, text_file_path)

3.2 代码解释

导入模块: json 用于处理JSON数据，re 用于正则表达式操作。文件读取:使用 with open(…) 语句确保文件在操作完成后被正确关闭，即使发生错误。json.load(json_file) 将JSON文件内容解析为Python字典。text_file.read() 读取整个文本文件的内容到一个字符串。增加了 try-except 块来处理 FileNotFoundError 和 json.JSONDecodeError，增强程序的健壮性。正则表达式匹配:re.findall(r”(device-w+-d+-d+ w+)”, text_content) 是核心。r”…” 表示这是一个原始字符串，避免反斜杠的转义问题。(device-w+-d+-d+ w+) 是正则表达式模式，用于捕获符合特定格式的设备名称。device-: 字面匹配 “device-“。w+: 匹配一个或多个字母、数字或下划线。d+: 匹配一个或多个数字。` `: 匹配一个空格。(): 捕获组，表示我们想要提取括号内的内容。txt_device_names 将是一个包含所有匹配到的设备名称的列表。将 txt_device_names 转换为 set (txt_device_names_set) 是一个重要的优化，它使得后续在循环中检查 json_device_name in txt_device_names_set 的操作具有平均 O(1) 的时间复杂度，而如果使用列表则为 O(n)，在大数据量时性能差异显著。数据遍历与匹配:代码遍历 json_data[“results”] 列表中的每一个字典（代表一个设备）。通过 item.get(“termination_a”, {}).get(“device”, {}).get(“name”) 安全地访问嵌套字典中的设备名称。使用 .get() 方法可以在键不存在时返回默认值（这里是空字典或 None），避免 KeyError。if json_device_name and json_device_name in txt_device_names_set: 判断从JSON中获取的设备名称是否存在于从文本中提取的名称集合中。如果匹配成功，则打印出根URL (item[‘url’]) 和 termination_a 下的URL (item[‘termination_a’][‘url’])。同样，使用 .get() 方法安全地访问这些URL。

4. 运行结果

执行上述Python脚本，你将看到如下输出：

从文本文件 'test.txt' 中提取到的设备名称: {'device-number8-2023-08 myname8', 'device-number1-2023-08 myname1', 'device-number3-2023-08 myname3'}匹配成功！设备名称 --> device-number1-2023-08 myname1  根URL: https://api.server.com/cables/100/  termination_a URL: https://api.server.com/interfaces/250/------------------------------匹配成功！设备名称 --> device-number3-2023-08 myname3  根URL: https://api.server.com/cables/200/  termination_a URL: https://api.server.com/interfaces/160/------------------------------匹配成功！设备名称 --> device-number8-2023-08 myname8  根URL: https://api.server.com/cables/300/  termination_a URL: https://api.server.com/interfaces/260/------------------------------

5. 注意事项与扩展

正则表达式的准确性: 正则表达式是此解决方案的关键。确保你的模式能够准确捕获目标字符串，同时避免误匹配。如果设备名称的格式发生变化，你需要相应地调整正则表达式。性能优化: 对于非常大的文本文件，逐行读取并处理可能比一次性读取整个文件更节省内存。对于非常大的JSON文件，考虑使用流式解析（如 ijson 库）而不是一次性加载到内存。错误处理: 在实际应用中，应增加更完善的错误处理机制，例如处理文件不存在、JSON格式错误、数据结构不符合预期等情况。本教程已包含基本的 try-except 块。数据结构灵活性: 如果JSON数据的结构可能变化，访问嵌套字段时应更多地使用 dict.get() 方法，并提供默认值，以防止 KeyError。输出格式: 根据实际需求调整输出的格式和内容。你可以将提取到的信息存储到新的数据结构中，或者写入到新的文件里。

6. 总结

本教程展示了如何结合Python的文件I/O、JSON解析和正则表达式，高效地从非结构化文本中提取信息，并与结构化数据进行匹配和关联。这种方法在数据清洗、数据集成和自动化报告等多种场景下都非常实用。通过理解并灵活运用这些技术，你可以构建出强大的数据处理脚本，以

以上就是Python中基于文本匹配JSON数据并提取关联URL信息的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1376672.html

ai go js json python python脚本大数据数据清洗正则表达式

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

解决Python asyncio中异步任务执行顺序与依赖性问题

上一篇 2025年12月14日 16:06:14

Python pathlib 模块：从完整路径中提取当前目录名称

下一篇 2025年12月14日 16:06:31

用户投稿

修复Django电商项目中AJAX过滤产品列表图片不显示问题

在Django电商项目中，当使用AJAX动态加载过滤后的产品列表时，常遇到图片无法正常显示的问题。这通常是由于前端模板中图片加载方式（如data-setbg属性结合JavaScript库）与AJAX动态内容更新机制不兼容所致。解决方案是直接在AJAX返回的HTML中使用标准的标签来渲染图片，确保浏览…

程序猿
2026年5月10日
0000
用户投稿

开源免费PHP工具 PHP开发效率提升利器

推荐开源免费PHP开发工具以提升效率：VS Code、Sublime Text轻量高效，PhpStorm专业强大；调试用Xdebug、Kint、Ray；依赖管理选Composer；代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer；数据库管理可用%ignore_a_1%MyA…

程序猿
2026年5月10日
0000
Matplotlib 地图中多类型图例的创建与优化

本教程旨在解决matplotlib地图可视化中，如何在一个图例中同时展示颜色块（如区域分类）和自定义标记（如特定兴趣点）的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时，如何利用`matplotlib.lines.line2d`创建标记图例句柄，并将其与颜色块图例句柄合并，从而生成一…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

Golang JSON序列化：控制敏感字段暴露的最佳实践

本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时，通过利用`encoding/json`包提供的结构体标签，特别是`json:”-“`，可以轻松实现对特定字段的忽略，从而避免敏感数据泄露，确保api…

程序猿
2026年5月10日
0000
用户投稿

利用海象运算符简化条件赋值：Python教程与最佳实践

本文旨在探讨Python中海象运算符（:=）在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符，以及条件表达式，分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例，展示如何在列表推导式等场景下合理使用海象运算符，同时强调其潜在的复杂性及替代方案，帮助开发者更好地掌…

程序猿
2026年5月10日
1000
用户投稿

比特币新手教程比特币交易平台有哪些

比特币是一种去中心化的数字货币，基于区块链技术实现点对点交易，具有匿名性、有限发行和不可篡改等特点；新手可通过交易所购买，P2P交易获得比特币，常用平台包括Binance、OKX和Huobi；交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买，可选择市价单或限价单；比特币存储方式有交易…

程序猿
2026年5月10日
0000
用户投稿

c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

SFINAE 是“替换失败不是错误”的原则，指模板实例化时若参数替换导致错误，只要存在其他合法候选，编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景，如通过 decltype 或 enable_if 控制函数重载，实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

程序猿
2026年5月10日
0000
用户投稿

Golang gRPC流式请求异常处理

在Golang的gRPC流式通信中，必须通过context.Context处理异常。应监听上下文取消或超时，及时释放资源，设置合理超时，避免连接长时间挂起，并在goroutine中通过context控制生命周期。在使用 Golang 和 gRPC 实现流式通信时，异常处理是确保服务健壮性的关键部分…

程序猿
2026年5月10日
0000
用户投稿

Go语言mgo查询构建：深入理解bson.M与日期范围查询的正确实践

本文旨在解决go语言mgo库中构建复杂查询时，特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性，解释为何直接索引`interface{}`会导致“invalid operation”错误，并提供一种推荐的、结构清晰的代码重构方案，以确保查询条件能够正确…

程序猿
2026年5月10日
1000
用户投稿

vscode上怎么运行html_vscode上运行html步骤【指南】

首先保存文件为.html格式，再通过浏览器或Live Server插件打开预览；推荐安装Live Server实现本地服务器运行与实时刷新，提升开发体验。在 VS Code 上运行 HTML 文件并不需要复杂的配置，只需几个简单步骤即可预览页面效果。VS Code 本身是一个代码编辑器，不直接运行…

程序猿
2026年5月10日
1000
用户投稿

RichHandler与Rich Progress集成：解决显示冲突的教程

在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时，可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

程序猿
2026年5月10日
0000
用户投稿

Golang goroutine与channel调试技巧

使用go run -race检测数据竞争，结合runtime.NumGoroutine监控协程数量，通过pprof分析阻塞调用栈，利用select超时避免永久阻塞，有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心，但它们也带来了调试上…

程序猿
2026年5月10日
0000
用户投稿

使用 Jupyter Notebook 进行探索性数据分析

Jupyter Notebook通过单元格实现代码与Markdown结合，支持数据导入（pandas）、清洗（fillna）、探索（matplotlib/seaborn可视化）、统计分析（describe/corr）和特征工程，便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

程序猿
2026年5月10日
0000
《魔兽世界》将于6月11日开启国服回归技术测试

《%ign%ignore_a_1%re_a_1%》官方宣布，将于6月11日开启国服回归技术测试，时间为7天，并称可以在6月内正式开服，玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端，技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情以上就是《…

程序猿
2026年5月10日 • 用户投稿
2000
用户投稿

如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

HTML表单通过标签构建，包含action和method属性定义数据提交目标与方式，常用input类型如text、password、email等适配不同输入需求，配合label、required、placeholder提升可用性，结合textarea、select、button等控件实现完整交互，是…

程序猿
2026年5月10日
0000
用户投稿

前端缓存策略与JavaScript存储管理

根据数据特性选择合适的存储方式并制定清晰的读写与清理逻辑，能显著提升前端性能；合理运用Cookie、localStorage、sessionStorage、IndexedDB及Cache API，结合缓存策略与定期清理机制，可在保证用户体验的同时避免安全与性能隐患。前端缓存和JavaScript存…

程序猿
2026年5月10日
1000
用户投稿

HTML5网页如何实现手势操作 HTML5网页移动端交互的处理技巧

首先利用原生touch事件实现滑动判断，再通过preventDefault解决滚动冲突，接着引入Hammer.js处理复杂手势，最后通过优化点击区域、避免事件冲突和增加视觉反馈提升体验。在移动端浏览器中，HTML5网页可以通过触摸事件实现手势操作，提升用户体验。虽然原生JavaScript提供了基…

程序猿
2026年5月10日
0000
用户投稿

创建指定大小并填充特定数据的Golang文件教程

本文将介绍如何使用Golang创建一个指定大小的文件，并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件，从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件，并将其填充为全零数据。掌握这些方法，可以方便地在例如日志系统或磁盘队列等场景中，预先创建测试文件或初始…

程序猿
2026年5月10日
0000
用户投稿

深入理解 Express.js 中 next() 参数的作用与中间件机制

本文深入探讨 express.js 中间件函数中的 `next()` 参数。它负责将控制权传递给请求-响应周期中的下一个中间件或路由处理程序。文章将详细解释 `next()` 的工作原理、中间件的注册与执行顺序，以及不正确使用 `next()` 可能导致请求挂起的风险，并通过代码示例和实际应用场景，…

程序猿
2026年5月10日
0000
用户投稿

Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py，它会输出每个函数的调用次数、总耗时、累积耗时等关键指标，帮助定位性能瓶颈；为进一步分析，可将结果保存为文件python -m cProfile -o ou…

程序猿
2026年5月10日
0000