开环端到端自动驾驶中自车状态是你所需要的一切吗？

程序猿 • 2025年11月11日 06:08:44 • 科技 • 阅读 1

原标题：is ego status all you need for open-loop end-to-end autonomous driving?

论文链接：https://arxiv.org/abs/2312.03031

代码链接：https://github.com/NVlabs/BEV-Planner

作者单位：南京大学 NVIDIA

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文思路：

端到端自动驾驶最近作为一个有前景的研究方向浮现出来，以全栈视角为目标寻求自动化。沿这条线，许多最新的工作遵循开环评估设置在 nuScenes 上研究规划行为。本文通过进行彻底的分析并揭示更多细节中的难题，更深入地探讨了这个问题。本文最初观察到，以相对简单的驾驶场景为特征的 nuScenes 数据集，导致在整合了自车状态(ego status)的端到端模型中感知信息的利用不足，例如自车的速度。这些模型倾向于主要依赖自车状态进行未来路径规划。除了数据集的局限性之外，本文还注意到当前的指标并不能全面评估规划质量，这导致从现有基准中得出的结论可能存在偏见。为了解决这个问题，本文引入了一个新的指标来评估预测的轨迹是否遵循道路。本文进一步提出了一个简单的基线，能够在不依赖感知标注的情况下达到有竞争力的结果。鉴于现有基准和指标的局限性，本文建议学术界重新评估相关的主流研究，并谨慎考虑持续追求最先进技术是否会产生令人信服的普遍结论。

主要贡献：

基于 nuScenes 的开环自动驾驶模型受到自车状态（速度、加速度、偏航角）的显著影响，这些因素在规划性能中起着关键作用。当自车状态参与其中时，模型的轨迹预测主要受其控制，可能导致对感知信息的利用减少。

现有的规划指标可能无法全面评估模型的实际表现。不同指标下模型的评估结果可能存在明显差异。因此，建议引入更多多样化和全面的指标来评估模型的性能，避免模型只在某些指标下表现优异而忽视其他潜在风险。

相较于在现有的 nuScenes 数据集上取得最先进性能，开发更适用的数据集和指标被认为是一项更为关键和紧迫的挑战。

论文设计：

端到端自动驾驶的目标是综合考虑感知和规划，以全栈方式实现[1, 5, 32, 35]。其基本动机在于将自动驾驶车辆（AV）的感知视为实现目标（规划）的手段，而非过度依赖某些感知度量标准进行拟合。

与感知不同，规划通常更加开放式且难以量化[6, 7]。理想情况下，规划的开放式特性将支持闭环评估设置，在该设置中，其他代理可以对自车的行为做出反应，原始传感器数据也可以相应地变化。然而，到目前为止，在闭环模拟器中进行代理行为建模和真实世界数据模拟[8, 19]仍然是具有挑战性的未解决问题。因此，闭环评估不可避免地引入了与现实世界相当大的域差距(domain gaps)。

另一方面，开环评估旨在将人类驾驶视为真实情况，并将规划表述为模仿学习[13]。这种表述允许通过简单的日志回放，直接使用现实世界的数据集，避免了来自模拟的域差距(domain gaps)。它还提供了其他优势，例如能够在复杂和多样的交通场景中训练和验证模型，这些场景在模拟中经常难以高保真度生成[5]。因为这些好处，一个已经建立的研究领域集中于使用现实世界数据集的开环端到端自动驾驶[2, 12, 13, 16, 43]。

目前流行的端到端自动驾驶方法[12, 13, 16, 43]通常使用 nuScenes[2] 来进行其规划行为的开环评估。例如，UniAD[13] 研究了不同感知任务模块对最终规划行为的影响。然而，ADMLP[45] 最近指出，一个简单的MLP网络也能仅依靠自车状态(ego status) 信息，就实现最先进的规划结果。这激发了本文提出一个重要问题：

开环端到端自动驾驶是否只需要自车状态(ego status) 信息？

本文的答案是肯定的也是否定的，这考虑到了在当前基准测试中使用自车状态(ego status) 信息的利弊：

是。自车状态(ego status) 中的信息，如速度、加速度和偏航角，显然应有利于规划任务的执行。为了验证这一点，本文解决了AD-MLP的一个公开问题，并移除了历史轨迹真实值(GTs)的使用，以防止潜在的标签泄露。本文复现的模型，Ego-MLP（图1 a.2），仅依赖自车状态(ego status) ，并且在现有的L2距离和碰撞率指标方面与最先进方法不相上下。另一个观察结果是，只有现有的方法[13, 16, 43]，将自车状态(ego status) 信息纳入规划模块中，才能获得与 Ego-MLP 相当的结果。尽管这些方法采用了额外的感知信息（追踪、高清地图等），但它们并未显示出比 Ego-MLP 更优越。这些观察结果验证了自车状态(ego status) 在端到端自动驾驶开环评估中的主导作用。

不是。很明显，作为一个安全至关重要的应用，自动驾驶在决策时不应该仅仅依赖于自车状态(ego status) 。那么，为什么仅使用自车状态(ego status) 就能达到最先进规划结果的现象会发生呢？为了回答这个问题，本文提出了一套全面的分析，涵盖了现有的开环端到端自动驾驶方法。本文识别了现有研究中的主要缺陷，包括与数据集、评估指标和具体模型实现相关的方面。本文在本节的其余部分列举并详细说明了这些缺陷：

数据集不平衡。NuScenes 是一个常用的开环评估任务的基准[11–13, 16, 17, 43]。然而，本文的分析显示，73.9%的 nuScenes 数据涉及直线行驶的场景，如图2所示轨迹分布反映的那样。对于这些直线行驶的场景，大多数时候保持当前的速度、方向或转向率就足够了。因此，自车状态(ego status) 信息可以很容易地被作为一种捷径来适应规划任务，这导致了 Ego-MLP 在 nuScenes 上的强大性能。

现有的评估指标不全面。NuScenes 数据中剩余的26.1%涉及更具挑战性的驾驶场景，可能是规划行为更好的基准。然而，本文认为广泛使用的当前评估指标，如预测与规划真实值之间的L2距离以及自车与周围障碍物之间的碰撞率，并不能准确衡量模型规划行为的质量。通过可视化各种方法生成的众多预测轨迹，本文注意到一些高风险轨迹，如驶出道路可能在现有指标中不会受到严重惩罚。为了回应这一问题，本文引入了一种新的评估指标，用于计算预测轨迹与道路边界之间的交互率(interaction rate)。当专注于与道路边界的交汇率(intersection rates) 时，基准将经历一个实质性的转变。在这个新的评估指标下，Ego-MLP 倾向于预测出比 UniAD 更频繁偏离道路的轨迹。

一键职达

AI全自动批量代投简历软件，自动浏览招聘网站从海量职位中用AI匹配职位并完成投递的全自动操作，真正实现’一键职达’的便捷体验。

79 查看详情

自车状态(ego status)偏见与驾驶逻辑相矛盾。由于自车状态(ego status) 可能导致过拟合，本文进一步观察到一个有趣的现象。本文的实验结果表明，在某些情况下，从现有的端到端自动驾驶框架中完全移除视觉输入，并不会显著降低规划行为的质量。这与基本的驾驶逻辑相矛盾，因为感知被期望为规划提供有用的信息。例如，在 VAD [16] 中屏蔽所有摄像头输入会导致感知模块完全失效，但如果有自车状态(ego status) 的话，规划的退化却很小。然而，改变输入的自身速度可以显著影响最终预测的轨迹。

总之，本文推测，最近在端到端自动驾驶领域的努力及其在 nuScenes 上的最先进成绩很可能是由于过度依赖自车状态(ego status) ，再加上简单驾驶场景的主导地位所造成的。此外，当前的评估指标在全面评估模型预测轨迹的质量方面还不够。这些悬而未决的问题和不足可能低估了规划任务的潜在复杂性，并且造成了一种误导性的印象，那就是在开环端到端自动驾驶中，自车状态(ego status) 就是你所需要的一切。

当前开环端到端自动驾驶研究中自车状态(ego status) 的潜在干扰引出了另一个问题：是否可以通过从整个模型中移除自车状态(ego status) 来抵消这种影响？然而，值得注意的是，即使排除了自车状态(ego status) 的影响，基于 nuScenes 数据集的开环自动驾驶研究的可靠性仍然存疑。

图1。(a) AD-MLP 同时使用自车状态(ego status) 和过去轨迹的真实值作为输入。本文复现的版本（Ego-MLP）去掉了过去的轨迹。(b) 现有的端到端自动驾驶流程包括感知、预测和规划模块。自车状态(ego status) 可以集成到鸟瞰图（BEV）生成模块或规划模块中。(c) 本文设计了一个简单的基线以便与现有方法进行比较。这个简单的基线不利用感知或预测模块，而是直接基于 BEV 特征预测最终轨迹。

图2。(a) nuScenes 数据集中的自车轨迹热图。(b) nuScenes 数据集中的大多数场景由直行驾驶情况组成。

图3。当前方法[12, 13, 16]忽略了考虑自车的偏航角变化，始终保持0偏航角（由灰色车辆表示），从而导致假阴性（a）和假阳性（b）的碰撞检测事件增加。本文通过估计车辆轨迹的变化来估计车辆的偏航角（由红色车辆表示），以提高碰撞检测的准确性。

图4。本文展示了 VAD 模型（在其规划器中结合了自车状态(ego status) ）在各种图像损坏情况下的预测轨迹。给定场景中的所有轨迹（跨越20秒）都在全局坐标系统中呈现。每个三角形标记代表自车的真实轨迹点，不同的颜色代表不同的时间步。值得注意的是，即使输入为空白图像，模型的预测轨迹仍保持合理性。然而，红色框内的轨迹是次优的，如图5中进一步阐述的。尽管对所有环视图像都进行了损坏处理，但为了便于可视化，只显示了初始时间步对应的前视图像。

图5。在开环自动驾驶方法中，从自车的起始位置预测未来轨迹。在模仿学习范式内，预测轨迹理想情况下应该与实际的真实轨迹密切对齐。此外，连续时间步预测的轨迹应保持一致性，从而保证驾驶策略的连续性和平滑性。因此，图4 中红色框显示的预测轨迹不仅偏离了真实轨迹，而且在不同的时间戳上显示出显著的分歧。

图6。对于在其规划器中结合了自车状态(ego status) 的基于VAD的模型，本文在视觉输入保持恒定的情况下，向自车速度引入噪声。值得注意的是，当自车的速度数据被扰动时，结果轨迹显示出显著的变化。将车辆的速度设置为零会导致静止的预测，而速度为100米/秒会导致预测出不切实际的轨迹。这表明，尽管感知模块继续提供准确的周围信息，模型的决策过程过分依赖于自车状态(ego status) 。

图7。BEVFormer在 BEV查询的初始化过程中结合了自车状态(ego status) 信息，这是当前端到端自动驾驶方法[13, 16, 43]未曾涉及的细节。

图8。在 BEV-Planner++ 中引入自车状态(ego status) 信息使得模型能够非常快速地收敛。

图9。比较本文基线的 BEV特征与相应的场景。

实验结果：

论文总结：

本文深入分析了当前开环端到端自动驾驶方法固有的缺点。本文的目标是贡献研究成果，促进端到端自动驾驶的逐步发展。

引用：

Li Z, Yu Z, Lan S, et al. Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?[J]. arXiv preprint arXiv:2312.03031, 2023.

以上就是开环端到端自动驾驶中自车状态是你所需要的一切吗？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/620000.html

模拟器端到端自动驾驶

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

挑战OpenAI的新模型免费上线，40%计算量性能逼近GPT-4

上一篇 2025年11月11日 06:05:23

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

下一篇 2025年11月11日 06:09:17

好文分享

构建模拟：从头开始的实时交易模拟器

简介嘿，开发社区！我很高兴分享我的业余项目 Simul8or – 一个实时日间交易模拟器，旨在为用户提供一个无风险的环境来练习交易策略。该项目 100% 构建在 ASP.NET WebForms、C#、JavaScript、CSS 和 SQL Server 技术堆栈上，没有外部库或框架。从头开始构…

程序猿
2025年12月24日
3000
好文分享

HTML、CSS 和 JavaScript 项目

欢迎来到我的 html、css 和 javascript 项目集合！这篇博文全面概述了我创建的各种项目，展示了 web 开发的不同方面。每个项目都可以在自己的存储库中找到，其中包含您需要探索和学习的所有代码。目录简介项目概况开始使用贡献作者介绍作为一名 web 开发人员，我喜欢从事各种项目，…

程序猿
2025年12月24日
0000
好文分享

浏览 CSS 响应式设计

前端开发人员的一项主要职责是创建响应式设计布局。这也是他们的挑战之一。您可能和我一样相信，在使用 html/css 和 javascript 进行项目时“是时候开始构建响应式设计了”，或者您可能会发现很难让您的设计响应式。无论什么情况，让我们开始学习如何导航 css 响应式设计，sailor。 …

程序猿
2025年12月24日
0000
好文分享

如何克服响应式布局的不足之处

如何克服响应式布局的不足之处随着移动设备的普及和互联网的发展，响应式布局成为了现代网页设计中必不可少的一部分。通过响应式设计，网页可以根据用户所使用的设备自动调整布局，使用户在不同的屏幕尺寸下都能获得良好的浏览体验。然而，尽管响应式布局在提供多屏幕适应性方面做得相当出色，但仍然存在一些不足之处。…

程序猿
2025年12月24日
0000
好文分享

响应式布局优化移动设备适配的策略与实用技巧

响应式布局在移动设备上的适配策略与最佳实践随着移动设备的普及和使用频率的增加，响应式布局逐渐成为网页设计的主流趋势。在移动设备上实现良好的用户体验，需要采用适配策略和最佳实践来确保网页能够在不同尺寸的屏幕上自适应地显示。一、视口设置为了适应不同尺寸的移动设备屏幕，需要正确设置视口。在网页的头部添…

程序猿
2025年12月24日
0000
好文分享

掌握响应式布局网站的关键要点

了解响应式布局网站的必备知识随着移动设备的普及和使用率的增加，人们越来越多地使用手机和平板电脑来浏览网页。为了让网站在不同尺寸的屏幕上都能够有良好的显示效果，响应式布局逐渐成为了现代网页设计的一种重要趋势。本文将介绍响应式布局网站的必备知识，帮助读者更好地了解和运用响应式布局。一、响应式布局的定…

程序猿
2025年12月24日
2000
好文分享

怎么保证html在平板上运行_保障平板运行html的方法【技巧】

首先需设置视口元标签，，确保页面正确缩放；接着使用媒体查询和弹性布局适配768px至1024px屏幕，如@media (min-width: 768px) and (max-width: 1024px) { .container { width: 90%; margin: 0 auto; } img…

程序猿
2025年12月23日
0000
好文分享

studio怎么运行html_studio运行html步骤【指南】

在Android Studio中运行HTML文件需将其放入assets目录，并通过WebView加载。首先创建assets文件夹并放入HTML文件，然后在布局中添加WebView组件，接着在Activity中启用JavaScript并使用loadUrl加载本地HTML文件，若HTML涉及网络请求还需…

程序猿
2025年12月23日
0000
好文分享

在React Native WebView中保持键盘开启状态的策略

本文探讨了在react native的webview组件中，当输入框失去焦点时如何避免虚拟键盘自动关闭的问题。核心解决方案在于优化html中的事件处理逻辑，通过使用`onchange`事件而非`oninput`，并直接调用目标输入框的`focus()`方法，确保焦点无缝转移，从而维持键盘的持续显示，…

程序猿
2025年12月23日
0000
好文分享

React Native WebView中输入框焦点切换时保持键盘可见的实现

本文探讨在react native webview中，当输入框失去焦点时键盘自动关闭的问题。通过将输入框的事件从`oninput`改为`onchange`，并结合`document.getelementbyid(‘target’).focus()`方法，可以在输入框之间平滑切…

程序猿
2025年12月23日
0000
好文分享

构建响应式网站：利用CSS Grid与媒体查询优化移动端布局

本文旨在解决网站在移动设备上显示不佳的问题，特别是当固定尺寸布局和简单的width: 100%无法奏效时。我们将深入探讨如何利用css grid创建灵活的二维布局，并结合媒体查询（media queries）为不同屏幕尺寸定制样式，从而实现真正适应多设备的响应式设计。响应式设计的挑战与误区当开发…

程序猿
2025年12月23日
0000
好文分享

构建响应式搜索栏：使用Flexbox与媒体查询优化移动体验

本文将详细介绍如何利用css flexbox布局和媒体查询技术，构建一个在不同设备上都能良好展示的响应式搜索栏。通过优化布局和调整元素尺寸，确保搜索按钮在移动端不会出现错位或下沉，提升用户体验。在现代网页设计中，响应式布局是不可或缺的一环，它确保了网站在桌面、平板和手机等不同尺寸屏幕上都能提供一致…

程序猿
2025年12月23日
0000
好文分享

构建响应式搜索栏：Flexbox布局与媒体查询实践

本教程详细介绍了如何利用CSS的Flexbox布局和媒体查询技术，创建一个在桌面和移动设备上都能优雅显示并保持良好用户体验的响应式搜索栏。通过设置Flexbox实现元素水平排列，并结合媒体查询调整小屏幕下的输入框宽度，有效解决了移动端布局错乱的问题，确保搜索功能在不同尺寸设备上均能正常工作。在现代…

程序猿
2025年12月23日
0000
响应式CSS Grid布局：优化网格项在小屏幕下的堆叠与宽度适配

本文详细介绍了如何使用css媒体查询（`@media`）来解决css grid布局中网格项在小屏幕下无法自动堆叠或宽度适配的问题。通过动态调整`grid-template-columns`属性和重置特定网格项的定位，确保内容在不同屏幕尺寸下保持良好的可读性和布局。文章包含示例代码、关键注意事项和最佳…

程序猿
2025年12月23日 • 好文分享
0000
解决移动端滚动问题的overflow属性应用指南

本文旨在解决移动端网页内容溢出时滚动条不显示或内容被导航栏遮挡的问题。通过深入分析`position`属性与滚动机制的交互，并提供具体的react/grommet示例，详细阐述如何利用css的`overflow: auto`或`overflowy: auto`属性，结合`webkitoverflow…

程序猿
2025年12月23日 • 好文分享
0000
好文分享

HTML布局响应式测试怎么进行_HTML响应式布局效果的测试方法

使用开发者工具模拟设备、在真实设备测试、借助在线工具验证，并检查CSS布局结构，确保页面适配不同屏幕尺寸。响应式布局是现代网页开发中的关键环节，确保网站在不同设备（如手机、平板、桌面电脑）上都能正常显示。测试HTML响应式布局的效果，需要从多个维度进行验证，以下是常用的测试方法。使用浏览器开发者…

程序猿
2025年12月23日
0000
好文分享

响应式CSS Grid与Flexbox布局：解决表单输入项不自适应问题

本文深入探讨了在使用css grid和flexbox构建响应式布局时，表单输入项在小屏幕下无法自适应的问题。通过分析固定高度、flex容器方向等常见误区，提供了基于`min-height`、`flex-direction: row`和`flex`属性的优化方案，旨在帮助开发者构建在不同视口下都能保持…

程序猿
2025年12月23日
1000
好文分享

响应式图片焦点控制：利用CSS媒体查询优化移动端视觉体验

在移动设备上，图片经常因缩放而导致焦点偏离，影响用户体验。本文将详细介绍如何利用css的`object-fit`和`object-position`属性，结合媒体查询（media queries），精确控制图片在不同屏幕尺寸下的显示区域和焦点位置，从而无需为移动端准备单独图片，实现图片内容的智能适配…

程序猿
2025年12月23日
0000
好文分享

html如何居下_HTML元素底部对齐（position:fixed/bottom）实现方法

最直接的方法是使用CSS的position: fixed配合bottom: 0，使元素固定在视口底部；若需在父容器内对齐，则用position: absolute和bottom: 0，但父容器需有定位属性。 HTML元素要居下，最直接且常用的方法是利用CSS的position: fixed属性配合b…

程序猿
2025年12月23日
0000
好文分享

解决AdSense响应式广告在移动端布局异常：从容器宽度到代码优化

本文深入探讨AdSense响应式广告在移动设备上出现布局错位，特别是当其父级容器或祖先元素采用`width: auto`或通过JavaScript动态调整宽度时的问题。我们将分析问题根源，并提供三种核心解决方案：使用固定尺寸广告单元、优化父级容器的CSS布局，以及考虑`data-ad-format=…

程序猿
2025年12月23日
0000