地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

近年来,随着人工智能从感知智能向决策智能演进,世界模型 (world models) 逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态,从而实现更高效的规划与决策。

与此同时,具身数据也迎来了爆发式关注。因为目前具身算法高度依赖于大规模的真实机器人演示数据,而这些数据的采集过程往往成本高昂、耗时费力,严重限制了其可扩展性和泛化能力。尽管仿真平台提供了一种相对低成本的数据生成方式,但由于仿真环境与真实世界之间存在显著的视觉和动力学差异 (即sim-to-real gap) ,导致在仿真中训练的策略难以直接迁移到真实机器人上,从而限制了其实际应用效果。因此如何高效获取、生成和利用高质量的具身数据,已成为当前机器人学习领域的核心挑战之一。

近日,地平线、极佳科技与中国科学院自动化研究所等单位提出RoboTransfer,基于扩散模型的视频生成框架,可以用于扩充机器人策略模型的训练数据。得益于合成数据的多样性,下游策略模型能够在新场景下取得251%的显著提升,大幅提升策略模型的泛化性,为具身智能的通用性与泛化性奠定了坚实的基础。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

• 论文链接:

https://arxiv.org/pdf/2505.23171

• 项目主页:

https://horizonrobotics.github.io/robot_lab/robotransfer/

模仿学习 (Imitation Learning) 已成为机器人操作领域的重要方法之一。通过让机器人“模仿”专家示教的行为,可以在复杂任务中快速构建有效的策略模型。然而,这类方法通常依赖大量高质量的真实机器人演示数据,而数据采集过程成本高、周期长,严重制约了其扩展性和泛化能力。

为了解决上述问题,本项工作提出了RoboTransfer,一种基于扩散模型 (diffusion model) 的视频生成框架,旨在实现高质量的机器人操作场景数据合成。不同于传统的仿真方法或现有生成模型,RoboTransfer融合了多视角几何信息,并对场景中的关键组成成分(如背景、物体属性等)实现了显式控制。具体而言,RoboTransfer通过引入跨视角特征交互机制以及全局深度图与法向图作为条件输入,确保生成视频在多个视角下的几何一致性。此外,该框架支持细粒度的编辑控制,例如更换背景、替换目标物体等,从而能够灵活地生成多样化、结构合理的视觉数据。

实验结果表明,RoboTransfer能够生成具有高几何一致性和视觉质量的多视角视频序列。此外,使用RoboTransfer合成数据训练的机器人视觉策略模型,在标准测试任务中表现出显著提升的性能:在更换前景物体的场景下取得了33.3%的成功率相对提升,在更具挑战性的场景下(同时更换前景背景)更是达到了251%的显著提升。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

RoboTransfer的整体框图如下,为了在视频生成过程中保证多视角之间的一致性,RoboTransfer引入了多视角一致性建模机制,使得生成过程能够联合不同视角的信息进行推理,从而提升生成结果的空间连贯性与视觉合理性。

此外,在控制条件的设计方面,RoboTransfer通过将控制信号解耦为几何信息与外观(纹理)信息两个部分,实现了对生成内容的细粒度控制。具体来说,在几何控制方面,采用深度图 (depth map) 和表面法向图 (surface normal map) 等具有强结构约束的表示方式,来引导生成视频中物体的三维空间结构,确保在不同视角下生成内容的几何一致性。而在外观控制方面,模型利用参考背景图像和目标物体的参考图像作为输入条件,这些图像经过编码后能够有效保留原始场景的色彩、纹理以及上下文信息,从而在生成过程中维持物体外观的细节还原能力。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

在实验部分,RoboTransfer证明可以通过real-to-real,以及sim-to-real两种方式实现数据增广,并训练下游的策略模型提升其性能。

千帆大模型平台 千帆大模型平台

面向企业开发者的一站式大模型开发及服务运行平台

千帆大模型平台 0 查看详情 千帆大模型平台

real-to-real数据增广

基于真机采集的真实视频数据,可从中提取结构化信息作为控制条件,通过调整背景桌面与前景物体的控制参数,实现新场景数据的合成。如下图所示,左侧为真实采集的数据及其对应的结构化信息,右侧为合成结果,实验表明RoboTransfer能够灵活地实现背景桌布的替换。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

改变前景:下图所示第一行为真机采集数据,第二行为深度图,第三行为法向图,第四行为前景物体的控制条件,第五行为合成数据,第六行为背景桌布控制条件。以下实验结果表明RoboTransfer可以实现对前景物体外表编辑的功能,丰富生成数据的多样性,提升策略模型的训练质量。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

sim-to-real数据增广

RoboTransfer不仅可以改变真机数据的前景和背景,还可以实现对仿真数据的重新渲染。利用仿真数据中的结构化信息以及真实场景的物体和背景作为控制条件,RoboTransfer可以将仿真数据的转化为逼真的真实数据,极大地降低sim-to-real之间的gap,为通用机器人的训练提供了一个新的范式。以下是两个不同的仿真场景重新渲染的实验结果,左侧是叠碗,右侧是放置杯子,其中第一行为仿真采集数据,第二行为深度图,第三行为法向图,第四行为合成数据,第五行为背景参考图。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

对比实验结果

与其他SOTA方法的对比可以发现,RoboTransfer在时序一致性以及多视角之间的一致性上都要显著优于其他方法。

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

定量实验的实验结果如下表所示,实验表明对于生成数据的前背景增广可以显著提升策略模型在新场景下的成功率,其中对于前背景完全改变的新场景,前背景的数据增广能够让策略模型获得251%的性能提升。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说

表1:数据增广对于策略模型在不同setting下的提升

总体来说,该方法构建了数据处理流程,可以生成包含几何和外观控制条件的三元组数据,以训练基于扩散模型的机器人数据合成框架RoboTransfer。实验和评估结果显示,RoboTransfer能够生成具有多视角一致、几何一致的数据,并且可以根据参考图像修改前景和背景纹理。生成的数据用于训练机器人操作策略,从而显著提升了策略模型的泛化能力。

以上就是地平线RoboTransfer:几何一致视频世界模型,突破机器人操作泛化边界丨开发者说的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/208286.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月3日 11:41:49
下一篇 2025年11月3日 11:43:02

相关推荐

  • TikTok视频无法下载怎么办 TikTok视频下载异常修复方法

    先检查链接格式、网络设置及工具版本。复制以https://www.tiktok.com/@或vm.tiktok.com开头的链接,删除?后参数,尝试短链接;确保网络畅通,可切换地区节点或关闭防火墙;更新工具至最新版,优先选用yt-dlp等持续维护的工具。 遇到TikTok视频下载不了的情况,别急着换…

    2025年12月6日 软件教程
    100
  • Vue.js应用中配置环境变量:灵活管理后端通信地址

    在%ignore_a_1%应用中,灵活配置后端api地址等参数是开发与部署的关键。本文将详细介绍两种主要的环境变量配置方法:推荐使用的`.env`文件,以及通过`cross-env`库在命令行中设置环境变量。通过这些方法,开发者可以轻松实现开发、测试、生产等不同环境下配置的动态切换,提高应用的可维护…

    2025年12月6日 web前端
    000
  • VSCode性能分析与瓶颈诊断技术

    首先通过资源监控定位异常进程,再利用开发者工具分析性能瓶颈,结合禁用扩展、优化语言服务器配置及项目设置,可有效解决VSCode卡顿问题。 VSCode作为主流的代码编辑器,虽然轻量高效,但在处理大型项目或配置复杂扩展时可能出现卡顿、响应延迟等问题。要解决这些性能问题,需要系统性地进行性能分析与瓶颈诊…

    2025年12月6日 开发工具
    000
  • VSCode插件:GitLens使用详解

    GitLens是VSCode中强大的Git增强插件,提供行级代码追踪、提交历史浏览、版本对比、跨文件导航及与GitHub等平台集成;通过启用Current Line Blame和In-Line Blame,可实时查看每行代码的作者与修改时间;支持按分支、作者过滤提交记录,比较差异,并利用Go Bac…

    2025年12月6日 开发工具
    000
  • mysql如何备份存储过程和函数

    最直接且推荐的方式是使用mysqldump工具并添加–routines参数,可完整导出存储过程和函数;若需跨版本迁移,应结合–triggers、处理DEFINER用户、验证SQL_MODE,并在测试环境充分验证恢复与兼容性。 MySQL备份存储过程和函数,最直接且推荐的方式是…

    2025年12月6日 数据库
    000
  • VSCode界面优化:精简布局与元素

    通过隐藏冗余组件和调整视觉元素可提升VSCode专注度。依次操作:1. 用Ctrl+B和Ctrl+J快捷键或设置隐藏侧边栏与面板;2. 在设置中关闭活动栏显示,并在settings.json中设置”window.titleBarStyle”: “inline&#8…

    2025年12月6日 开发工具
    000
  • JavaScript持续集成与部署

    持续集成与部署(CI/CD)通过自动化测试、构建和部署提升JavaScript项目交付效率。1. CI指频繁合并代码并自动运行测试以快速发现错误;2. CD在CI通过后自动将应用部署至生产环境;3. 常用工具包括GitHub Actions、GitLab CI/CD、CircleCI和Jenkins…

    2025年12月6日 web前端
    000
  • 谷歌浏览器标签页分组颜色怎么修改_谷歌浏览器标签分组个性化设置指南

    可通过右键菜单、拖拽建组或扩展程序修改谷歌浏览器标签分组颜色。首先右键分组圆点选新颜色;其次拖动标签创建分组时选择配色;最后可用“Tab Modifier”等扩展按规则自动着色。 如果您在使用谷歌浏览器时创建了标签页分组,但希望调整其颜色以便更好地区分不同任务或项目,则可以通过内置功能直接修改。以下…

    2025年12月6日 电脑教程
    000
  • 如何管理和同步VSCode的扩展配置,以便在新设备上快速恢复开发环境?

    使用 Settings Sync 是最快方式,通过 GitHub 账号同步扩展、设置、快捷键和代码片段;也可手动导出扩展列表(code –list-extensions > extensions.txt)并在新设备安装,结合备份 settings.json 等配置文件实现环境快速恢…

    2025年12月6日 开发工具
    000
  • 键盘背光模式设置

    键盘背光设置需根据设备类型选择方法:1. 先了解支持的背光模式,如常亮、呼吸、波浪等;2. 多数键盘可通过Fn组合键快捷切换亮度或模式,具体按键因品牌而异;3. 品牌机械键盘建议使用官方软件(如iCUE、Synapse)进行精细自定义;4. 笔记本通常用Fn加功能键调节,部分可在系统或厂商工具中设置…

    2025年12月6日 电脑教程
    000
  • VS Code扩展生态剖析:API设计与商店发布全流程指南

    VS Code扩展成功源于其插件化架构与丰富API。通过Activation Events、Contribution Points和Extension Host实现高效稳定的功能扩展,结合vscode.commands、languages、window、workspace等核心API提供完整开发支持…

    2025年12月6日 开发工具
    000
  • VSCode时间线:文件修改历史与代码追溯系统

    时间线功能是VSCode内置的代码追溯工具,通过整合Git历史记录提供文件修改的时间轴视图。用户可查看提交哈希、作者、时间、提交信息及变更行数,点击记录预览差异并还原版本。该功能依赖Git仓库,支持查看某行修改者、对比历史版本、恢复误删代码等操作,未启用Git时仅显示本地保存点。结合GitLens等…

    2025年12月6日 开发工具
    000
  • 蛐蛐 (QuQu)— 开源的桌面端语音输入与文本处理工具

    蛐蛐 (QuQu)是什么 蛐蛐(ququ)是一款专为中文用户打造的桌面语音输入与文本处理工具,旨在提供一个开源且免费的 wispr flow 替代方案。该工具集成了阿里巴巴的 funasr paraformer 模型,支持本地化部署与运行,有效保障用户隐私安全。同时融合先进 ai 技术,实现高精度语…

    2025年12月6日 科技
    000
  • VS Code源代码管理:变更跟踪与分支可视化操作解析

    VS Code内置Git功能提升开发效率:通过源代码管理视图实时跟踪文件变更,支持差异对比与部分暂存;借助Git图表可视化分支演进,直观管理提交历史;整合拉取、推送、分支切换等常用操作,简化协作流程。 VS Code 内置的源代码管理功能让开发者可以直接在编辑器中高效处理 Git 变更与分支操作,无…

    2025年12月6日 开发工具
    000
  • 数毛社实测PS5节能省电模式:功耗暴降55%

    近日,著名技术评测机构数毛社(digital foundry)对ps5最新系统固件中引入的“省电模式”展开深入实测。结果显示,虽然该功能对当前主机用户的实际意义较为有限,但其背后的技术方向或许正为索尼下一代便携式ps6设备铺路。 实机测试: 本次测试选用了两款已适配省电模式的游戏作品——《恶魔之魂》…

    2025年12月6日 游戏教程
    000
  • 美团 LongCat 团队发布 LongCat-Video 探索世界模型

    美团longcat团队近日正式推出全新视频生成模型longcat-video,致力于通过视频生成技术路径深入探索“世界模型”的构建,为自动驾驶、具身智能等前沿应用场景提供坚实的技术支撑。 该模型基于DiT(Diffusion in Time)架构设计,创新性地以“条件帧数量”作为任务区分标准,原生支…

    2025年12月6日 行业动态
    000
  • 探索VSCode云端开发环境搭建与配置方案

    首选GitHub Codespaces实现便捷云端开发,其次通过VSCode+SSH连接云服务器提升控制权,或采用Dev Containers确保环境一致性,结合性能优化与安全措施,满足不同场景下的高效协作需求。 在现代开发场景中,将VSCode与云端环境结合已成为提升协作效率、实现跨设备开发的重要…

    2025年12月6日 开发工具
    000
  • PHP/HTML代码格式化工具实践:以PHP-CS-Fixer为例

    本文针对php和html代码的自动化格式化需求,推荐并详细介绍了php-cs-fixer工具。它不仅能检查代码标准,还能自动修复格式问题,支持自定义规则集和ci/cd集成,是确保团队代码风格一致性的高效解决方案。通过本文,您将了解其安装、配置、使用及在持续集成环境中的应用。 在现代软件开发流程中,代…

    2025年12月6日 后端开发
    000
  • VSCode智能补全:配置基于AI的代码建议与自动完成功能

    首先安装 GitHub Copilot 插件并登录账号,启用内联建议与快捷设置,通过清晰命名和注释提升补全准确率,审查生成代码并提交反馈以优化模型,从而显著提升编码效率。 VSCode 的智能补全功能可以通过集成基于 AI 的工具显著提升编码效率。目前最成熟且广泛使用的 AI 驱动代码补全是 Git…

    2025年12月6日 开发工具
    000
  • php新手怎么找工作_PHP新手求职方向、平台选择与实战建议

    答案是通过项目证明能力并主动拓展求职渠道。先做PHP+MySQL项目如商城后台,发布到GitHub并写好README;再从小公司需求、技术社区、开源项目中找机会;面试时重点准备PHP基础、MySQL操作和项目讲解,突出解决问题的能力。 刚学完PHP怎么找工作?这是很多新手都会问的问题。答案其实不复杂…

    2025年12月6日 后端开发
    000

发表回复

登录后才能评论
关注微信