2D人体姿态关键点数据处理:JSON格式解析与模型适配策略

2d人体姿态关键点数据处理:json格式解析与模型适配策略

本文探讨了在2D人体姿态估计中,如何处理和适配特定JSON格式的关键点数据。针对用户自定义的`[x, y, confidence]`扁平化列表格式,文章指出直接寻找原生输出此格式的模型存在挑战。核心策略是理解现有数据结构,并根据目标姿态估计模型的输入要求进行数据重格式化。教程将提供JSON解析示例,并讨论关键点顺序、坐标归一化等重格式化要点,旨在帮助开发者高效地将自定义数据应用于主流姿态估计框架。

在2D人体姿态估计任务中,获取图像中人物的关键点坐标是核心目标。开发者常会遇到现有关键点数据(无论是标注数据还是其他模型输出)采用特定JSON格式,而主流姿态估计模型(如YOLOv8-pose、OpenPose、MediaPipe等)通常有其预定义的输入或输出格式。本文将针对类似以下示例的JSON格式数据,探讨如何进行解析、理解,并提出将其适配到主流姿态估计模型的方法。

理解自定义关键点JSON格式

我们首先分析提供的JSON数据结构。该格式将人体关键点表示为一个扁平化的列表,其中每个关键点由三个浮点数组成:[x坐标, y坐标, 置信度]。

{  "version": 1.0,  "people": [    {      "face_keypoints": [],      "pose_keypoints": [        104.81, 34.44, 0.91, // Keypoint 1 (x, y, confidence)        83.90, 80.05, 0.72, // Keypoint 2        // ... more keypoints ...        0, 0, 0,            // Missing or undetected keypoint        93.98, 28.16, 0.93  // Last keypoint      ],      "hand_right_keypoints": [],      "hand_left_keypoints": []    }  ]}

在这个结构中:

version: 版本信息。people: 一个列表,每个元素代表检测到的一个人。pose_keypoints: 包含人体姿态关键点的列表。这是一个扁平化的数组,每三个元素构成一个关键点 (x, y, confidence)。如果某个关键点未被检测到,其坐标和置信度可能为 0, 0, 0。face_keypoints, hand_right_keypoints, hand_left_keypoints: 同样用于存储面部和手部关键点,在本例中为空。

这种扁平化列表的格式在某些场景下(例如OpenPose的早期输出或自定义数据集)较为常见,但其关键点的具体语义(例如第一个三元组代表鼻子,第二个代表左眼等)需要额外的映射表来定义。

直接寻找原生输出模型的挑战

开发者常常希望找到一个模型能够直接输出与其现有数据完全匹配的JSON格式。然而,这在实践中往往是困难的。

标准化差异: 不同的姿态估计模型和数据集(如COCO、MPII)定义了不同的关键点集合和顺序。例如,COCO数据集定义了17个关键点,而OpenPose可能定义了25个。输出结构多样性: 模型的输出格式多种多样,可能是原始的张量、特定API对象、或者不同结构的JSON/CSV文件。直接匹配到 [x, y, confidence] 的扁平化列表并非通用标准。后处理: 大多数模型在推理后都会进行后处理,将原始模型输出转换为更易读或标准化的格式。即使模型内部生成了类似的数据,最终暴露给用户的API输出也可能不同。

因此,与其寻找一个原生输出完全匹配的模型,更实际的方法是采用数据重格式化策略。

策略:数据重格式化以适配模型

核心思想是:将现有自定义格式的关键点数据,转换为目标姿态估计模型所要求的输入格式,或者在模型输出后,将其结果转换为期望的自定义格式。

1. 解析自定义JSON数据

首先,我们需要编写Python代码来解析上述自定义JSON格式,将其转换为更易于处理的结构,例如一个包含 (x, y, confidence) 元组的列表。

import jsondef parse_custom_keypoints_json(json_data_str):    """    解析自定义JSON字符串,提取人体姿态关键点。    """    data = json.loads(json_data_str)    people_keypoints_list = []    for person_data in data.get("people", []):        pose_keypoints_flat = person_data.get("pose_keypoints", [])        # 将扁平化列表转换为 (x, y, confidence) 元组列表        keypoints = []        for i in range(0, len(pose_keypoints_flat), 3):            if i + 2 < len(pose_keypoints_flat):                x = pose_keypoints_flat[i]                y = pose_keypoints_flat[i+1]                confidence = pose_keypoints_flat[i+2]                keypoints.append((x, y, confidence))        people_keypoints_list.append(keypoints)    return people_keypoints_list# 示例JSON数据(来自问题内容)example_json_str = """{"version": 1.0, "people": [{"face_keypoints": [], "pose_keypoints": [104.818897637795, 34.4436363636364, 0.915185123682022, 83.9055118110236, 80.0581818181818, 0.723944239318371, 42.5826771653543, 79.8254545454545, 0.618412546813488, 34.7716535433071, 142.661818181818, 0.757904663681984, 31.244094488189, 204.8, 0.52992781996727, 122.456692913386, 81.2218181818182, 0.589333228766918, 125.48031496063, 145.92, 0.702833116054535, 131.527559055118, 192, 0.366538248956203, 58.7086614173228, 193.861818181818, 0.298667620576452, 0, 0, 0, 0, 0, 0, 107.842519685039, 196.421818181818, 0.324830377765466, 0, 0, 0, 0, 0, 0, 93.9842519685039, 28.16, 0.932040095329285, 107.086614173228, 26.9963636363636, 0.939965099096298, 71.3070866141732, 32.5818181818182, 0.885046675801277, 0, 0, 0], "hand_right_keypoints": [], "hand_left_keypoints": []}]} """parsed_keypoints = parse_custom_keypoints_json(example_json_str)# print(parsed_keypoints) # 输出解析后的关键点列表

这段代码将原始的扁平化列表转换为更结构化的关键点列表,每个关键点是一个 (x, y, confidence) 元组。

2. 目标模型的数据格式要求

以Ultralytics YOLOv8-pose为例,其姿态估计任务的标注格式通常是文本文件(.txt),每行代表一张图片中的一个目标,格式如下:class_id bbox_x_center bbox_y_center bbox_width bbox_height keypoint1_x keypoint1_y keypoint1_visibility keypoint2_x keypoint2_y keypoint2_visibility …

其中:

所有坐标(bbox和keypoint)都必须是相对于图像宽度和高度的归一化值(0到1之间)。visibility(可见性)通常是0(未标注)、1(遮挡但可见)、2(可见)。在推理场景下,这通常被替换为置信度或直接省略。关键点的顺序必须与模型训练时使用的顺序一致(例如COCO关键点顺序)。

这意味着,如果您想使用现有数据训练YOLOv8-pose,或者将YOLOv8-pose的输出转换为您的格式,您需要进行以下转换:

关键点顺序映射: 将您的自定义关键点顺序映射到目标模型(如COCO)的关键点顺序。这通常需要一个预定义的映射表。坐标归一化: 将绝对像素坐标 (x, y) 转换为相对于图像尺寸的归一化坐标 (x_norm, y_norm)。x_norm = x / image_widthy_norm = y / image_height边界框信息: 如果目标模型需要,您可能需要从关键点估算或从其他来源获取每个人的边界框 (bbox_x_center, bbox_y_center, bbox_width, bbox_height)。置信度/可见性: 根据目标模型的具体要求处理关键点的置信度。

3. 示例:将解析数据适配到YOLOv8-pose(概念性)

假设我们已经解析了自定义JSON数据,并获得了 keypoints = [(x1, y1, c1), (x2, y2, c2), …]。现在我们将其转换为YOLOv8-pose所需的格式。

def reformat_for_yolov8_pose(parsed_keypoints_list, image_width, image_height, coco_keypoint_map):    """    将解析后的关键点数据转换为YOLOv8-pose兼容的格式。    此函数仅为概念性示例,需要根据实际情况进行完善。    Args:        parsed_keypoints_list: parse_custom_keypoints_json 的输出。        image_width: 原始图像宽度。        image_height: 原始图像高度。        coco_keypoint_map: 一个字典,将自定义关键点索引映射到COCO关键点索引。                           例如:{custom_idx: coco_idx, ...}    Returns:        一个列表,包含每个人的YOLOv8-pose格式字符串。    """    yolov8_labels = []    for person_keypoints in parsed_keypoints_list:        # 1. 估算边界框 (这里简化处理,实际可能需要更精确的算法)        # 排除 (0,0,0) 的关键点来估算边界框        valid_keypoints = [(x, y) for x, y, c in person_keypoints if c > 0]        if not valid_keypoints:            continue # 没有有效关键点,跳过此人        min_x = min(kp[0] for kp in valid_keypoints)        max_x = max(kp[0] for kp in valid_keypoints)        min_y = min(kp[1] for kp in valid_keypoints)        max_y = max(kp[1] for kp in valid_keypoints)        bbox_width = (max_x - min_x) / image_width        bbox_height = (max_y - min_y) / image_height        bbox_x_center = ((min_x + max_x) / 2) / image_width        bbox_y_center = ((min_y + max_y) / 2) / image_height        # 2. 准备关键点列表并进行归一化和排序        # 假设我们有25个关键点,且已知道它们的COCO映射        # 这里需要一个更复杂的映射逻辑,将原始关键点与COCO 17个关键点对应        # 简化为直接使用原始关键点,并假设其顺序与某个标准匹配        # 填充COCO 17个关键点,如果原始数据有更多,需要选择性映射        # 如果原始数据有25个关键点,需要根据COCO的17个关键点进行筛选和排序        # 示例中假设 person_keypoints 的顺序与COCO关键点大致对应或可映射        # 为了演示,我们假设自定义数据的前17个关键点与COCO顺序一致        # 实际应用中,需要根据具体的关键点定义进行精确映射        keypoints_formatted = []        for i in range(17): # 假设目标是COCO 17个关键点            if i  0 else 0                 keypoints_formatted.extend([x_norm, y_norm, visibility])            else:                # 如果自定义数据关键点不足17个,则填充0                keypoints_formatted.extend([0.0, 0.0, 0])        # 3. 组合成YOLOv8-pose的标签行        # class_id 0 通常代表 "person"        label_line = f"0 {bbox_x_center:.6f} {bbox_y_center:.6f} {bbox_width:.6f} {bbox_height:.6f}"        label_line += " " + " ".join([f"{val:.6f}" for val in keypoints_formatted])        yolov8_labels.append(label_line)    return yolov8_labels# 假设图像尺寸和COCO关键点映射(需要根据实际情况定义)# 这是一个简化的映射示例,实际需要根据您的自定义关键点和COCO关键点对应关系来构建# 例如:{0: 0, 1: 1, ... 16: 16} 假设前17个关键点直接对应COCOcoco_keypoint_mapping_example = {i: i for i in range(17)} image_w, image_h = 640, 480 # 假设图像尺寸# 转换数据yolov8_formatted_labels = reformat_for_yolov8_pose(parsed_keypoints, image_w, image_h, coco_keypoint_mapping_example)# for label in yolov8_formatted_labels:#     print(label)

注意事项:

关键点语义和顺序: 最关键的一步是理解您的自定义JSON中每个 (x, y, confidence) 三元组代表哪个身体部位,并将其与目标模型(如COCO)所定义的关键点进行精确映射。如果关键点数量不一致,需要进行增删和排序。坐标归一化: 几乎所有现代深度学习模型都要求输入坐标是归一化的。边界框: 许多姿态估计模型(特别是基于检测的模型,如YOLOv8-pose)需要边界框信息。如果您的原始数据中没有,您需要从关键点中估算。可见性/置信度: 目标模型可能对关键点的可见性或置信度有特定的编码要求。

选择和适配姿态估计模型

在完成数据重格式化后,您可以选择适合您需求的姿态估计模型:

YOLOv8-pose: Ultralytics YOLOv8系列提供了姿态估计功能。它易于使用,性能良好,并且有详细的文档说明如何准备数据集。OpenPose:

以上就是2D人体姿态关键点数据处理:JSON格式解析与模型适配策略的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1381250.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 22:48:04
下一篇 2025年12月14日 22:48:19

相关推荐

  • Mac 如何配置 zsh 与 Python

    首先确认并配置zsh环境,通过编辑~/.zshrc设置别名与路径;接着用brew安装pyenv管理Python版本,安装3.11.5并设为全局默认;然后为项目创建独立虚拟环境以隔离依赖;最后验证python、which python和pip版本确保配置正确。 Mac 上配置 zsh 与 Python…

    好文分享 2025年12月14日
    000
  • Python itertools:生成固定首尾元素的序列排列

    本文将深入探讨如何利用python的`itertools.permutations`模块,高效生成一系列特殊排列。核心技巧在于巧妙地分离原始数据中的固定首尾元素与可变中间元素,仅对可变部分进行排列组合,最终将它们与固定元素重新组合,从而实现生成首尾元素始终保持不变的序列排列。 场景概述与需求分析 在…

    2025年12月14日
    000
  • Pyperclip在Linux上如何工作:基于xclip和xsel的C函数解析

    pyperclip是一个跨平台的python模块,用于处理剪贴板操作。在linux系统(尤其是ubuntu)上,它主要依赖于`xclip`或`xsel`这两个命令行工具来与x11剪贴板进行交互。这些工具的底层实现是基于c语言的,它们提供了特定的函数来管理剪贴板数据的读取、写入和选择,遵循`freed…

    2025年12月14日
    000
  • 使用Pytest测试Python input()函数提示的有效策略

    本文探讨了在pytest中测试python `input()`函数所显示提示内容的有效方法。针对直接使用`capsys`或`capfd`捕获`input()`提示失败的问题,提出了一种通过重构代码,将提示生成逻辑分离到独立函数中的解决方案。这种方法不仅简化了测试流程,提高了测试的可靠性,还增强了代码…

    2025年12月14日
    000
  • Python 批量重命名文件的脚本编写

    批量重命名文件可通过Python的os模块实现,1. 按序号重命名:使用rename_files_sequentially函数将文件以指定前缀和序号命名;2. 替换文件名内容:通过replace_in_filenames替换特定字符如空格为下划线;3. 添加前缀后缀:利用add_prefix_suf…

    2025年12月14日
    000
  • 使用Pytest有效测试Python input() 函数的提示信息

    本文旨在解决使用pytest测试python `input()` 函数提示信息时遇到的挑战,特别是当提示内容由复杂逻辑动态生成时。我们发现直接通过 `capsys` 或 `capfd` 捕获 `input()` 提示是无效的。核心解决方案在于将提示信息的生成逻辑从主函数中解耦出来,形成一个独立的函数…

    2025年12月14日
    000
  • 从LAION-5B在线数据库高效获取指定类别图像的Python教程

    本教程详细介绍了如何使用python从大型在线图像数据库laion-5b的k-nn服务中,根据指定类别高效地获取并下载图像。通过`requests`库发送api请求,解析json响应,并流式下载图片,避免了下载整个庞大数据集的困扰,特别适用于个人项目和资源有限的场景。 在处理图像相关的个人项目时,我…

    2025年12月14日
    000
  • Python实现:探究两位数各位数字乘积特性及其编程查找

    本文将指导您如何使用Python编写程序,寻找所有两位数(10到99)中,其各位数字的乘积恰好等于该数字本身的特殊数。我们将详细解释如何提取数字、计算乘积,并通过实际代码演示正确的实现方法,帮助您理解并解决这类数字逻辑问题。 1. 引言:理解数字特性与编程挑战 在数学和编程领域,我们经常会遇到需要分…

    2025年12月14日
    000
  • 直接访问数组排序:通过键值实现对象排序的机制与应用

    直接访问数组排序是一种利用数据项的键作为数组索引进行排序的算法。它通过构建一个辅助的直接访问数组,将原始数据项(包含键和值)插入到对应键的索引位置,然后按索引顺序遍历辅助数组,从而高效地提取出排序后的完整数据项。该算法适用于键为非负、不重复且范围相对集中的整数场景,其时间复杂度为o(n+u),但空间…

    2025年12月14日
    000
  • Python中固定首尾元素的排列生成教程

    本文将详细介绍如何在python中使用`itertools.permutations`库,生成列表的排列组合,同时确保特定元素始终作为排列的首位和末位。通过列表解包和循环迭代,我们将展示如何高效地实现这一需求,并提供清晰的代码示例和输出解析,帮助读者掌握固定首尾排列的生成技巧。 理解排列与itert…

    2025年12月14日
    000
  • Python 环境与 IDE 插件的兼容性问题

    Python环境与IDE插件兼容性问题主要由解释器绑定错误、版本不匹配和插件依赖冲突引起。1. Pylance等插件可能不支持Python 3.12,需查看文档确认兼容性;2. 虚拟环境路径未正确配置会导致模块导入失败,应在VS Code或PyCharm中手动选择解释器路径;3. 插件依赖如Jedi…

    2025年12月14日
    000
  • Scrapy深度爬取内部链接:优化策略与常见问题规避

    本教程旨在指导用户如何使用scrapy高效且准确地爬取网页内部多层链接数据。文章将深入分析导致重复数据和爬取遗漏的常见问题,并提供基于scrapy内置去重、优化分页逻辑和合理数据传递的最佳实践,确保爬虫的稳定性和数据完整性。 Scrapy作为一款功能强大的Python爬虫框架,在处理复杂网站结构和深…

    2025年12月14日
    000
  • 解决 Windows 7 上 rtmidi Python 库安装失败的问题

    本文旨在帮助解决在 Windows 7 系统上使用 Python 3.8 安装 rtmidi 库时遇到的 “Microsoft Visual C++ 14.0 or greater is required” 错误。文章将分析错误原因,并提供升级 Python 版本至 3.11…

    2025年12月14日
    000
  • Python 中动态识别并输出变量类型

    本文旨在帮助初学者了解如何在 Python 中动态地识别并输出用户输入变量的类型。我们将探讨如何利用内建函数和异常处理机制,克服 input() 函数默认将输入视为字符串的限制,实现对整型、浮点型等多种数据类型的正确识别。 Python 的 input() 函数从标准输入读取数据,并始终将其作为字符…

    2025年12月14日
    000
  • 使用 Puppet concat 模块进行文件拼接后的校验

    本文档旨在帮助用户理解并正确使用 puppet concat 模块的 `validate_cmd` 功能,实现文件拼接后的校验。重点在于理解 `validate_cmd` 的工作机制,以及如何编写合适的校验脚本,确保拼接后的文件符合预期。避免在文件内容未完全更新前进行校验,保证配置的正确性和可靠性。…

    2025年12月14日
    000
  • Pyperclip在Linux上的剪贴板实现机制深度解析

    Pyperclip在Linux环境下,主要通过调用命令行工具`xclip`或`xsel`来操作系统剪贴板,这些工具的底层均基于X Window System(X11)。本文将深入探讨`xclip`和`xsel`的C语言实现原理,解析它们如何与X11交互以实现剪贴板功能,并介绍freedesktop.…

    2025年12月14日
    000
  • 深入理解Pandas DataFrame行求和:解决混合数据类型求和为零的问题

    本文旨在解决pandas dataframe中对包含混合数据类型(如字符串数字、纯文本和列表)的行进行求和时,`df.sum(numeric_only=true)`方法可能导致结果为零的问题。我们将详细探讨`numeric_only`参数的工作原理,并提供一个健壮的解决方案,利用`pd.to_num…

    2025年12月14日
    000
  • Python实现客户列表按月年分批与分配:高效数据组织策略

    本文详细讲解如何使用python高效地将大型客户列表按固定数量分块,并按时间顺序(月份-年份)将这些客户组分配到对应的周期中。通过生成正确的时间序列和利用字典映射,我们能够实现数据的高效组织与检索,确保每个时间段都关联到一组独特的客户,避免数据混淆。 在数据管理和业务规划中,经常需要将庞大的数据集(…

    2025年12月14日
    000
  • Pydantic 类字段不可变性:实现类级别属性保护

    本文深入探讨了在 pydantic 模型中实现字段不可变性的方法,特别是区分了实例字段和类字段的不可变性需求。对于实例字段,文章介绍了 `config.allow_mutation = false` 的使用方法。而对于更复杂的类字段不可变性,文章详细阐述了如何通过自定义元类(metaclass)来拦…

    2025年12月14日
    000
  • IntelliJ IDEA 文件类型识别与覆盖指南

    IntelliJ IDEA通过文件名扩展名或哈希bang行来智能识别文件类型,从而激活对应的语言支持、语法高亮、代码补全及运行配置。当IDE错误识别文件类型时,用户可以针对特定文件通过右键菜单进行临时覆盖,或进入“偏好设置/设置”中的“编辑器”->“文件类型”界面,全局管理和修改文件扩展名与文…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信