来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

近期,世界模型的概念引发了火热浪潮,而自动驾驶领域岂能隔岸观「火」。来自中科院自动化所的团队,首次提出了一种名为 Drive-WM 的全新多视图世界模型,旨在增强端到端自动驾驶规划的安全性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

网站:https://drive-wm.github.io

论文网址:https://arxiv.org/abs/2311.17918

无阶未来模型擂台/AI 应用平台 无阶未来模型擂台/AI 应用平台

无阶未来模型擂台/AI 应用平台,一站式模型+应用平台

无阶未来模型擂台/AI 应用平台 35 查看详情 无阶未来模型擂台/AI 应用平台

首个多视图预测和规划的自动驾驶世界模型

在 CVPR2023 自动驾驶的研讨会上,特斯拉和 Wayve 两大科技巨头狂秀黑科技,一种名为「生成式世界模型」的全新概念随之火爆自动驾驶领域。Wayve 更是发布了 GAIA-1 的生成式 AI 模型,展示了令人震撼的视频场景生成能力。而最近,中科院自动化所的研究者们也提出了一个新的自动驾驶世界模型 ——Drive-WM,首次实现了多视图预测的世界模型,与当下主流的端到端自动驾驶规划器无缝结合。

Drive-WM 利用了 Diffusion 模型的强大生成能力,能够生成逼真的视频场景。

想象一下,你正在开车,而你的车载系统正在根据你的驾驶习惯和路况预测未来的发展,并生成相应的视觉反馈来指导轨迹路线的选择。这种预见未来的能力和规划器相结合,将极大地提高自动驾驶的安全性!

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

基于多视图世界模型的预测和规划。

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

世界模型与端到端自动驾驶的结合提升驾驶安全性

Drive-WM 模型首次将世界模型与端到端规划相结合,为端到端自动驾驶的发展打开了新的篇章。在每个时间步上,规划器可以借助世界模型预测未来可能发生的情景,再利用图像奖励函数全面评估。

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

基于世界模型的端到端轨迹规划树可以进行重写

采用最佳估计法和扩展规划树技术,可以实现更加有效和安全的规划

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

Drive-WM通过创新地研究,探索了世界模型在端到端规划中的两种应用

1. 展示了世界模型在面对 OOD 场景时的鲁棒性。作者通过对比实验发现了目前的端到端规划器在面对 OOD 情况时的表现并不理想。

作者给出了以下图片,当对初始位置进行轻微的横向偏移扰动后,目前的端到端规划器就难以输出合理的规划路线。

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

端到端规划器在面对 OOD 情况时难以输出合理的规划路线。

Drive-WM的强大生成能力为解决OOD问题提供了新的思路。作者利用生成的视频来微调规划器,从OOD数据中进行学习,使得规划器在面对这样的场景时可以拥有更好的性能

2. 这表明了引入未来场景评估对于端到端规划的增强作用

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

如何构建多视图的视频生成模型

多视图视频生成的时空一致性一直以来都是一个具有挑战性的问题。Drive-WM 通过引入时序层的编码来扩展视频生成的能力,并通过视图分解建模的方式实现多视图的视频生成。这种视图分解的生成方式可以极大地提升视图之间的一致性

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

Drive-WM 整体模型设计

高质量的视频生成与可控性

Drive-WM实现了高质量的多视图视频生成,并且具有出色的可控性。它提供了多种控制选项,可以通过文本、场景布局、运动信息来控制多视图视频的生成,也为将来的神经仿真器提供了新的可能性

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

比如使用文本来改变天气和光照:

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

例如,行人的产生和前景的编辑:

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

利用速度和方向的控制方法:

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

生成稀有事件,例如在路口掉头或开进侧方草丛

来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达

结语

Drive-WM 不仅展示了其强大的多视图视频生成能力,也揭示了世界模型与端到端驾驶模型相结合的巨大潜力。相信在未来,世界模型可以帮助实现更安全、稳定、可靠的端到端自动驾驶系统。

以上就是来一趟未来之旅,首个多视图预测+规划自动驾驶世界模型抵达的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/453382.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 00:19:46
下一篇 2025年11月8日 00:24:00

相关推荐

  • 人形机器人首次打通视觉感知与运动断层,UC 伯克利华人博士让宇树 G1 现场演示

    不用提前熟悉环境,一声令下,就能让宇树机器人坐在椅子上、桌子上、箱子上! 还能直接解锁 ” 跨过箱子 “、” 敲门 ” 等任务 ~ 这是来自 UC 伯克利、卡内基梅隆大学等团队的最新研究成果LeVERB 框架—— 基于模拟数据训练实现零样本部署,让人形…

    2025年12月2日 硬件教程
    000
  • 无需电池即可实现「自动驾驶」,华盛顿大学开发出无限续航的机器人

    不装电池,也能%ignore_a_1%的“车”出现了。 甚至还会自动收集能量持续运行,完全没有里程焦虑(手动狗头)。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 不错,这么一个小机器人,其实靠的是光和无线电波供能。其名MilliMobil…

    2025年12月2日 科技
    000
  • BEV下的Radar-Camera 融合跨数据集实验研究

    原标题:cross-dataset experimental study of radar-camera fusion in bird’s-eye view论文链接:https://arxiv.org/pdf/2309.15465.pdf作者单位:opel automobile gmbh rhein…

    2025年12月2日 科技
    000
  • 遥遥领先!BEVHeight++:针对路侧视觉3D目标检测新方案!

    回归到地面的高度,以实现距离不可知的公式,从而简化仅相机感知方法的优化过程。在路侧camera的3d检测基准上,方法大大超过了以前所有以视觉为中心的方法。它比bevdepth产生了+1.9%的nds和+1.1%的map的显著改善。在nuscenes测试集上,方法取得了实质性的进步,nds和map分别…

    2025年12月2日 科技
    000
  • 改进自动驾驶在不确定环境下的轨迹规划方法

    论文题目:《基于改进的模型预测控制的自动驾驶车辆在不确定环境下的轨迹规划方法》 发表期刊:IEEE Transactions on Intelligent Transportation Systems 发布日期:2023年04月 以下是我自己的論文閱讀筆記,主要是我自己覺得重點的部分,非全文翻譯,該…

    2025年12月2日 科技
    000
  • LeCun对自动驾驶独角兽的造假行为深感失望

    你以为这是一个普通的自动驾驶视频吗? ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片 这个内容需要重新写成中文,而不改变原来的意思 没有一帧是“真的”。 图片 不同路况、各种天气,20多种情况都能模拟,效果以假乱真。 图片 世界模型再次…

    2025年12月2日 科技
    000
  • 实战部署:动态时序网络用于端到端检测和跟踪

    本文经自动驾驶之心公众号授权转载,转载请联系出处。 相信除了少数自研芯片的大厂,绝大多数自动驾驶公司都会使用英伟达NVIDIA芯片,那就离不开TensorRT. TensorRT是在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。我们利用Pytorch、TF或者其他框架训练好的模型,可以首…

    2025年12月2日 科技
    000
  • 2025 视觉健康推荐产品:AOC 智能办公本 10W2

    2025 年 7 月 16 日,由瑞物评测室与中关村在线联合主办的第二届健康显示大会如期举行。本次大会携手中国电研威凯公司及多家显示行业领军企业,共同修订并发布了《显示设备金 e 护眼认证》规范。 在当前护眼技术竞争日益激烈的背景下,不少品牌和产品凭借前沿科技与创新设计崭露头角——它们始终坚持以用户…

    2025年12月2日
    000
  • 自动驾驶中的交通规则识别问题

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 自动驾驶中的交通规则识别问题,需要具体代码示例 摘要:自动驾驶技术正在迅速发展,并且在未来有望实现商业化应用。然而,与此同时,自动驾驶车辆面临着一个重要的挑战,即交通规则的识别和遵守问题。本文将…

    2025年12月1日 科技
    000
  • 自动驾驶与轨迹预测看这一篇就够了!

    轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富,需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构(cnn&gnn&…

    2025年12月1日 科技
    000
  • 2024年自动驾驶标注行业是否会被世界模型所颠覆?

    1.数据%ignore_a_1%面临的问题(特别是基于BEV 任务) 随着基于BEV transformer 任务的兴起,随之带来的是对数据的依赖变的越来越重,基于BEV 任务的标注也变得越来越重要。目前来看无论是2D-3D的联合障碍物标注,还是基于重建点云的clip 的车道线或者Occpuancy…

    2025年12月1日 科技
    000
  • “真假难辨”!巧用NeRF生成的自动驾驶仿真数据

    写在前面&笔者的个人理解 神经辐射场(NeRF)已成为推进自动驾驶(AD)重新搜索的前奏的工具,提供可扩展的闭环模拟和数据增强功能。然而,为了信任模拟中获得的结果,需要确保AD系统以相同的方式感知真实数据和渲染数据。尽管渲染方法的性能正在提高,但许多场景在忠实重建方面仍然具有固有的挑战性。为…

    2025年12月1日 科技
    000
  • 3D视觉绕不开的点云配准!一文搞懂所有主流方案与挑战

    作为点集合的点云有望通过3d重建、工业检测和机器人操作中,在获取和生成物体的三维(3d)表面信息方面带来一场改变。最具挑战性但必不可少的过程是点云配准,即获得一个空间变换,该变换将在两个不同坐标中获得的两个点云对齐并匹配。这篇综述介绍了点云配准的概述和基本原理,对各种方法进行了系统的分类和比较,并解…

    2025年12月1日 科技
    000
  • RV融合性能拉爆!RCBEVDet:Radar也有春天,最新SOTA!

    写在前面&笔者的个人理解 这篇讨论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环境视觉相机技术的发展为3D目标检测提供了高分辨率的语义信息,这种方法因无法精确捕获深度信息和在恶劣天气或低光照条件下的表现不佳等问题而受限。针对这一问题,讨论提出了一种结合环视相机和经济型毫米波…

    2025年12月1日 科技
    000
  • 马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 他强调特斯拉已经接近实现无人干预的全%ignore_a_1%状态,并指出了全自动驾驶的实用性和提高汽车使用率的重要性。马斯克同时表示特斯拉对于与其他汽车制造商分享和许可自动驾驶技术非常感兴趣。 …

    2025年12月1日 科技
    000
  • Gary Marcus:自动驾驶汽车状况频出,仍未赢得认可

    2016年,《纽约时报》一篇关于%ign%ignore_a_1%re_a_1%汽车的文章开头写道:“自动驾驶汽车时代已经到来,一些汽车制造商已投资数十亿美元进行研发……并在美国的一些城市开始测试。”经过7年的时间,自动驾驶技术取得了哪些进展呢? 纽约大学的心理学和神经科学荣誉教授Gary Marcu…

    2025年12月1日 科技
    000
  • 用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

    用视觉来做prompt,会带来怎样的体验? 只需在图中随意勾画一下,即可立即标出相同的类别! ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 即便是那种GPT-4V都难搞定的数米粒的环节。只需要你手动拉一下框,就能找出所有米粒来。 有了新的目…

    2025年12月1日 科技
    000
  • 英国拟出新规,特斯拉或面临自动驾驶汽车禁售

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 据消息称,英国将出台《自动驾驶汽车法案》,特斯拉有可能被禁止在英国销售自动驾驶汽车。此举将给埃隆·马斯克和特斯拉带来重大挫折 英国交通运输部计划明年发布相关法规,规定未经批准的汽车制造商不得将车…

    2025年12月1日 科技
    000
  • 初学者必备,NeRF学习笔记洞察一切!

    神经辐射场究竟是什么 辐射场:由光源发出的光线在场景中的传播和反射过程中所形成的能量分布。通俗来说就是一个函数,记录了空间某个位置处向某个方向的辐射信息,辐射信息(或者说能量分布)其实就是颜色、亮度、阴影等信息。这里的方向需要额外留意,它是nerf实现真实重建的重要因素之一! 由此引出神经辐射场的概…

    2025年12月1日 科技
    000
  • 人工智能如何为未来智能大众出行解决方案铺平道路

    预计到2030年,有60%的人口将生活在城市地区。为了实现城镇化的进步,高效的人员流动至关重要。在各种公共交通方式中,铁路被认为是每乘客公里能源消耗最高效、最有效的选择。这是因为铁路系统不仅可以大大缓解城市拥堵问题,还能减少环境污染和交通事故的发生率。提升铁路网络的质量和覆盖范围,将有助于促进城市发…

    2025年12月1日 科技
    000

发表回复

登录后才能评论
关注微信