来一趟未来之旅，首个多视图预测+规划自动驾驶世界模型抵达

程序猿 • 2025年11月8日 00:20:02 • 用户投稿 • 阅读 0

近期，世界模型的概念引发了火热浪潮，而自动驾驶领域岂能隔岸观「火」。来自中科院自动化所的团队，首次提出了一种名为 Drive-WM 的全新多视图世界模型，旨在增强端到端自动驾驶规划的安全性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

网站：https://drive-wm.github.io

论文网址：https://arxiv.org/abs/2311.17918

无阶未来模型擂台/AI 应用平台

无阶未来模型擂台/AI 应用平台，一站式模型+应用平台

35 查看详情

首个多视图预测和规划的自动驾驶世界模型

在 CVPR2023 自动驾驶的研讨会上，特斯拉和 Wayve 两大科技巨头狂秀黑科技，一种名为「生成式世界模型」的全新概念随之火爆自动驾驶领域。Wayve 更是发布了 GAIA-1 的生成式 AI 模型，展示了令人震撼的视频场景生成能力。而最近，中科院自动化所的研究者们也提出了一个新的自动驾驶世界模型 ——Drive-WM，首次实现了多视图预测的世界模型，与当下主流的端到端自动驾驶规划器无缝结合。

Drive-WM 利用了 Diffusion 模型的强大生成能力，能够生成逼真的视频场景。

想象一下，你正在开车，而你的车载系统正在根据你的驾驶习惯和路况预测未来的发展，并生成相应的视觉反馈来指导轨迹路线的选择。这种预见未来的能力和规划器相结合，将极大地提高自动驾驶的安全性！

基于多视图世界模型的预测和规划。

世界模型与端到端自动驾驶的结合提升驾驶安全性

Drive-WM 模型首次将世界模型与端到端规划相结合，为端到端自动驾驶的发展打开了新的篇章。在每个时间步上，规划器可以借助世界模型预测未来可能发生的情景，再利用图像奖励函数全面评估。

基于世界模型的端到端轨迹规划树可以进行重写

采用最佳估计法和扩展规划树技术，可以实现更加有效和安全的规划

Drive-WM通过创新地研究，探索了世界模型在端到端规划中的两种应用

1. 展示了世界模型在面对 OOD 场景时的鲁棒性。作者通过对比实验发现了目前的端到端规划器在面对 OOD 情况时的表现并不理想。

作者给出了以下图片，当对初始位置进行轻微的横向偏移扰动后，目前的端到端规划器就难以输出合理的规划路线。

端到端规划器在面对 OOD 情况时难以输出合理的规划路线。

Drive-WM的强大生成能力为解决OOD问题提供了新的思路。作者利用生成的视频来微调规划器，从OOD数据中进行学习，使得规划器在面对这样的场景时可以拥有更好的性能

2. 这表明了引入未来场景评估对于端到端规划的增强作用

如何构建多视图的视频生成模型

多视图视频生成的时空一致性一直以来都是一个具有挑战性的问题。Drive-WM 通过引入时序层的编码来扩展视频生成的能力，并通过视图分解建模的方式实现多视图的视频生成。这种视图分解的生成方式可以极大地提升视图之间的一致性

Drive-WM 整体模型设计

高质量的视频生成与可控性

Drive-WM实现了高质量的多视图视频生成，并且具有出色的可控性。它提供了多种控制选项，可以通过文本、场景布局、运动信息来控制多视图视频的生成，也为将来的神经仿真器提供了新的可能性

比如使用文本来改变天气和光照：

例如，行人的产生和前景的编辑：

利用速度和方向的控制方法：

生成稀有事件，例如在路口掉头或开进侧方草丛

结语

Drive-WM 不仅展示了其强大的多视图视频生成能力，也揭示了世界模型与端到端驾驶模型相结合的巨大潜力。相信在未来，世界模型可以帮助实现更安全、稳定、可靠的端到端自动驾驶系统。

以上就是来一趟未来之旅，首个多视图预测+规划自动驾驶世界模型抵达的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/453382.html

自动驾驶视觉

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Win10怎么调整任务栏位置 Win10任务栏移动设置教程

上一篇 2025年11月8日 00:20:01

迅为RK3588开发板 | 在高性能处理器上如何使用GPIO

下一篇 2025年11月8日 00:20:04

好文分享

如何搭建C++自动驾驶环境 Apollo平台配置

搭建C++自动驾驶环境需先配置Ubuntu系统、Docker及NVIDIA驱动，再克隆Apollo代码并构建Docker镜像，进入容器后用bazel编译，启动Dreamview可视化界面，选择地图与模块运行Demo；常见问题如编译失败可清理缓存或更新依赖，自定义车辆模型和地图需掌握URDF与prot…

程序猿
2025年12月18日
0000
如何配置C++的自动驾驶规划环境 Apollo规划模块二次开发

为什么apollo规划模块的二次开发需要特定的环境配置？apollo使用docker和bazel是为了处理复杂的依赖关系、确保构建一致性、支持gpu加速以及提升团队协作效率。2. 在apollo环境中进行规划模块二次开发的关键步骤包括：准备宿主机环境、克隆apollo仓库、进入docker环境、编译…

程序猿
2025年12月18日 • 好文分享
0000
自动驾驶实时系统：确定性内存分配器开发指南

自动驾驶实时系统对确定性内存分配器的需求，是为了确保内存操作在可预测时间内完成，从而保障系统的稳定与安全。1. 预分配和内存池通过预先分配固定大小的内存块，实现o(1)时间复杂度的快速分配与释放，但可能导致内存浪费；2. bump allocator使用移动指针的方式实现极快的分配，但通常不支持单独…

程序猿
2025年12月18日 • 好文分享
0000
好文分享

如何在C++中进行自动驾驶和智能导航开发？

如何在C++中进行自动驾驶和智能导航开发？自动驾驶和智能导航是当今科技发展的热门领域之一。随着计算机硬件技术的快速发展和算法的不断完善，C++语言在自动驾驶和智能导航领域的应用越来越广泛。本文将介绍如何在C++中进行自动驾驶和智能导航的开发，并提供代码示例。传感器数据获取与处理自动驾驶和智能导…

程序猿
2025年12月17日
0000
好文分享

如何实现C++中的自动驾驶和智能交通系统？

如何实现C++中的自动驾驶和智能交通系统？自动驾驶和智能交通系统是目前人工智能领域的热门话题，它们的应用领域涉及到交通运输、安全防护和城市规划等多个方面。本文将探讨如何使用C++编程语言实现自动驾驶和智能交通系统，并提供相关的代码示例。了解自动驾驶和智能交通系统基本原理自动驾驶系统是指通过计算机…

程序猿
2025年12月17日
1000
人形机器人首次打通视觉感知与运动断层，UC 伯克利华人博士让宇树 G1 现场演示

不用提前熟悉环境，一声令下，就能让宇树机器人坐在椅子上、桌子上、箱子上！还能直接解锁 ” 跨过箱子 “、” 敲门 ” 等任务 ~ 这是来自 UC 伯克利、卡内基梅隆大学等团队的最新研究成果LeVERB 框架—— 基于模拟数据训练实现零样本部署，让人形…

程序猿
2025年12月2日 • 用户投稿
0000
无需电池即可实现「自动驾驶」，华盛顿大学开发出无限续航的机器人

不装电池，也能%ignore_a_1%的“车”出现了。甚至还会自动收集能量持续运行，完全没有里程焦虑（手动狗头）。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 不错，这么一个小机器人，其实靠的是光和无线电波供能。其名MilliMobil…

程序猿
2025年12月2日 • 用户投稿
0000
BEV下的Radar-Camera 融合跨数据集实验研究

原标题：cross-dataset experimental study of radar-camera fusion in bird’s-eye view论文链接：https://arxiv.org/pdf/2309.15465.pdf作者单位：opel automobile gmbh rhein…

程序猿
2025年12月2日 • 用户投稿
1000
遥遥领先！BEVHeight++：针对路侧视觉3D目标检测新方案！

回归到地面的高度，以实现距离不可知的公式，从而简化仅相机感知方法的优化过程。在路侧camera的3d检测基准上，方法大大超过了以前所有以视觉为中心的方法。它比bevdepth产生了+1.9%的nds和+1.1%的map的显著改善。在nuscenes测试集上，方法取得了实质性的进步，nds和map分别…

程序猿
2025年12月2日 • 用户投稿
0000
改进自动驾驶在不确定环境下的轨迹规划方法

论文题目：《基于改进的模型预测控制的自动驾驶车辆在不确定环境下的轨迹规划方法》发表期刊：IEEE Transactions on Intelligent Transportation Systems 发布日期：2023年04月以下是我自己的論文閱讀筆記，主要是我自己覺得重點的部分，非全文翻譯，該…

程序猿
2025年12月2日 • 用户投稿
4000
LeCun对自动驾驶独角兽的造假行为深感失望

你以为这是一个普通的自动驾驶视频吗？ ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片这个内容需要重新写成中文，而不改变原来的意思没有一帧是“真的”。图片不同路况、各种天气，20多种情况都能模拟，效果以假乱真。图片世界模型再次…

程序猿
2025年12月2日 • 用户投稿
0000
实战部署：动态时序网络用于端到端检测和跟踪

本文经自动驾驶之心公众号授权转载，转载请联系出处。相信除了少数自研芯片的大厂,绝大多数自动驾驶公司都会使用英伟达NVIDIA芯片,那就离不开TensorRT. TensorRT是在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。我们利用Pytorch、TF或者其他框架训练好的模型，可以首…

程序猿
2025年12月2日 • 用户投稿
1000
用户投稿

2025 视觉健康推荐产品：AOC 智能办公本 10W2

2025 年 7 月 16 日，由瑞物评测室与中关村在线联合主办的第二届健康显示大会如期举行。本次大会携手中国电研威凯公司及多家显示行业领军企业，共同修订并发布了《显示设备金 e 护眼认证》规范。在当前护眼技术竞争日益激烈的背景下，不少品牌和产品凭借前沿科技与创新设计崭露头角——它们始终坚持以用户…

程序猿
2025年12月2日
1000
自动驾驶中的交通规则识别问题

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 自动驾驶中的交通规则识别问题，需要具体代码示例摘要：自动驾驶技术正在迅速发展，并且在未来有望实现商业化应用。然而，与此同时，自动驾驶车辆面临着一个重要的挑战，即交通规则的识别和遵守问题。本文将…

程序猿
2025年12月1日 • 用户投稿
0000
自动驾驶与轨迹预测看这一篇就够了！

轨迹预测在自动驾驶中承担着重要的角色，自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据，预测车辆未来的行驶轨迹。作为自动驾驶的核心模块，轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富，需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构（cnn&gnn&…

程序猿
2025年12月1日 • 用户投稿
0000
2024年自动驾驶标注行业是否会被世界模型所颠覆？

1.数据%ignore_a_1%面临的问题(特别是基于BEV 任务）随着基于BEV transformer 任务的兴起，随之带来的是对数据的依赖变的越来越重，基于BEV 任务的标注也变得越来越重要。目前来看无论是2D-3D的联合障碍物标注，还是基于重建点云的clip 的车道线或者Occpuancy…

程序猿
2025年12月1日 • 用户投稿
0000
“真假难辨”！巧用NeRF生成的自动驾驶仿真数据

写在前面&笔者的个人理解神经辐射场（NeRF）已成为推进自动驾驶（AD）重新搜索的前奏的工具，提供可扩展的闭环模拟和数据增强功能。然而，为了信任模拟中获得的结果，需要确保AD系统以相同的方式感知真实数据和渲染数据。尽管渲染方法的性能正在提高，但许多场景在忠实重建方面仍然具有固有的挑战性。为…

程序猿
2025年12月1日 • 用户投稿
1000
3D视觉绕不开的点云配准！一文搞懂所有主流方案与挑战

作为点集合的点云有望通过3d重建、工业检测和机器人操作中，在获取和生成物体的三维（3d）表面信息方面带来一场改变。最具挑战性但必不可少的过程是点云配准，即获得一个空间变换，该变换将在两个不同坐标中获得的两个点云对齐并匹配。这篇综述介绍了点云配准的概述和基本原理，对各种方法进行了系统的分类和比较，并解…

程序猿
2025年12月1日 • 用户投稿
0000
RV融合性能拉爆！RCBEVDet：Radar也有春天，最新SOTA！

写在前面&笔者的个人理解这篇讨论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环境视觉相机技术的发展为3D目标检测提供了高分辨率的语义信息，这种方法因无法精确捕获深度信息和在恶劣天气或低光照条件下的表现不佳等问题而受限。针对这一问题，讨论提出了一种结合环视相机和经济型毫米波…

程序猿
2025年12月1日 • 用户投稿
0000
马斯克预测：特斯拉全自动驾驶将在今年实现对AI深度变化感到担忧

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 他强调特斯拉已经接近实现无人干预的全%ignore_a_1%状态，并指出了全自动驾驶的实用性和提高汽车使用率的重要性。马斯克同时表示特斯拉对于与其他汽车制造商分享和许可自动驾驶技术非常感兴趣。 …

程序猿
2025年12月1日 • 用户投稿
0000