2024年，端到端自动驾驶在国内是否会有实质性的突破和进展？

程序猿 • 2025年11月7日 08:35:28 • 用户投稿 • 阅读 0

并非所有人都能理解tesla v12在北美大范围推送以及凭借其优良的表现开启获得越来越多用户认同的局面，端到端自动驾驶也成为自动驾驶行业里大家最为关注的技术方向。最近有机会和很多行业中的一流工程师、产品经理、投资者、媒体人进行了一些交流，发现大家对端到端自动驾驶很感兴趣，但甚至在一些对端到端自动驾驶的基本理解上还存在着这样那样的误区。作为有幸体验过国内一线品牌有图无图城市功能，同时又体验过fsd v11和v12两个版本的人，在这里我想结合自己专业背景和对tesla fsd常年的进展跟踪，谈谈几个现阶段大家谈及端到端自动驾驶的常见误区，并给出我自己对于这些问题的解读。

疑惑一：端到端感知，端到端决策规划都可以算作是端到端自动驾驶？

从传感器输入开始到规划然后控制信号输出的过程中所有的步骤都是端到端可导，这样整个系统可以作为一个大模型进行训练，通过梯度下降的训练，通过梯度反向传播可以在模型训练期间对模型从输入到输出之间的所有环节进行参数更新优化，从而能够针对用户直接感知到的驱动决策轨迹优化整个系统的驱动行为。而最近一些友商在宣传端到端的自动驾驶的过程中声称自己是端到端感知，或者端到端的决策，但这二者其实我认为都不能算作是端到端的自动驾驶，而只能被称作纯数据驱动的感知和纯数据驱动的决策规划。

某些人可能会根据特定模型做出决策，并结合传统方法来进行安全校验和轨迹优化的混合策略，也称为端到端规划。此外，有说法认为Tesla V12并不是纯粹精准的模型输出控制信号，应该也是结合了一些规则方法的混合策略。根据就是http://X.com上的著名Green前段时间发过一条twitter称在V12技术栈里还是能够发现规则的代码。对此我的理解是Green发现的代码很可能是V12高速技术栈保留的V11版本代码，因为我们知道目前V12其实只是用端到端替换了原本城市技术栈，高速仍会沿用V11的方案，因此在解开的代码中找到一些规则代码的只言片语并不代表V12是假“端到端”，而是找到的很可能是高速的代码。实际上我们从2022年的AI+Day上就可以看出，V11及之前的版本已经是混合方案，因此V12如果不是彻底的模型直出轨迹，那么方案上就和之前的版本差别不大，如果是这样V12的性能跳跃性提升又没有法合理的解释了。关于Tesla之前的方案可参考我在AI+Day解读EatElephant：Tesla AI Day 2022 — 世字解读：塪称自动驾驶春晚，去中心化的研发团队，麎心勃勃的向AI技术公司转型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

从2022年AI Day上来看，V11已经是混合了NN Planner的规划方案

总的来说，无论是感知后处理代码，还是规则的候选轨迹打分，甚至是安全兜底策略，一旦引入了规则的代码，有了if else的分支，整个系统的稳定传递就会被截断，这也就损失了端到端系统通过训练获得全局优化的最大优势。

疑惑二：端到端是对之前技术的推倒重来？

另一个常见的误区是端到端就是推翻了之前积累的技术进行彻底的新技术的革新，并且很多人觉得已然Tesla刚刚实现了端到端自动驾驶系统的用户推送，那么其他厂商根本不用再在原本感知、预测、规划的模块化技术栈上迭代，大家直接进入端到端的系统，反而可以借鉴后发优势快速追上甚至超越Tesla。确实以一个大模型来完成从传感器输入到规划控制信号的映射是最为彻底的端到端，也很早就有公司尝试过类似的方法，例如Nvidia的DAVE-2和Wayve等公司就使用了类似的方法。这种彻底的端到端技术确实更接近黑盒，很难进行debug和迭代优化，同时由于传感器输入信号如图像、点云等是非常高维度的输入空间，输出控制信号如方向盘转角和油门制动踏板是相对低维的输出空间，导致实车测试完全无法使用。

彻底的端到端系统也会使用一些常见的如语义分割，深度估计等辅助任务帮助模型收敛和debug

因此我们实际看到的FSD V12保留了几乎所有之前的可视化内容，这表明FSD V12是在原本强大的感知基础上进行的端到端训练，从2020年10月开始的FSD迭代并没有被抛弃，反而是成为了V12坚实的技术基础。Andrej Karparthy之前也回答过类似问题，他虽然没有参与V12的研发，但他认为所有之前的技术积累并没有被抛弃，只是从台前迁移到了幕后。因此端到端是在原有技术基础上一步步去掉个部分的规则代码逐渐实现的端到端导航。

V12保留了FSD几乎所有的感知，只取消了椎桶等有限的可视化内容

疑惑三：学术Paper中的端到端能否迁移到实际产品中？

UniAD成为2023年CVPR Best Paper无疑代表了学术界对端到端的自动驾驶系统寄予的厚望。从2021年Tesla介绍了其视觉BEV感知技术的创新后，国内学术界在自动驾驶BEV感知方面投入了非常大的热情，并诞生了一些列研究，推动了BEV方法的性能优化和落地部署，那么端到端是否也能走一条类似的路线，由学术界引领，产业界跟随从而推动端到端技术在产品上的快速迭代落地呢？我认为是比较难的。首先BEV感知还是一个相对模块化的技术，更多是算法层面，且入门级性能对数据量的需求没有那么高，高质量的学术开源数据集Nuscenes的推出为很多BEV研究提供了便利的前置条件，在Nuscenes上迭代的BEV感知方案虽然无法达到产品级性能要求，但是作为概念验证和模型选型，是具有很大借鉴价值的。然而学术界缺乏大规模的端到端可用数据。目前最大规模的Nuplan数据集包含了4个城市1200小时的实车采集数据，然而在2023年的一次财报会议上，Musk表示对于端到端的自动驾驶“训练了100万个视频case，勉强可以工作；200万个，稍好一些；300万个，就会感到Wow；到了1000万个，它的表现就变得难以置信了”。Tesla的Autopilot回传数据普遍认为是1min的片段，那么入门级别的100w视频case大概就是16000小时，比最大的学术数据集至少多一个数量级以上，这里还是要注意nuplan是连续采集数据，因此在数据的分布和多样性上有着致命的缺陷，绝大多数数据都是简单场景，这也就意味着使用nuplan这样的学术数据集甚至无法获得一个能够勉强上车的版本。

Nuplan数据集已经是非常巨大规模的学术数据集，然而作为端到端方案的探索可能还远远不够

于是我们看到包括UniAD在内的绝大多数端到端自动驾驶方案都无法实车运行，而只能退而求其次进行开环评测。而开环评测指标的可靠度非常低，因为开环评测无法识别出模型混淆因果的问题，所以模型即使只学到了利用历史路径外插也能获得非常好的开环指标，但这样的模型是完全不可用的，2023年百度曾经发表一篇叫做AD-MLP的Paper（https://arxiv.org/pdf/2305.10430）来讨论开环规划评测指标的不足，这篇Paper仅仅是用了历史信息，而没有引入任何感知，就获得了非常不错的开环评测指标，甚至接近一些目前的SOTA工作，然而显而易见，没有人能在闭上眼睛的情况下开好车！

Trae国内版

国内首款AI原生IDE，专为中国开发者打造

815 查看详情

AD MLP通过不依赖感知输入取得不错的开环指标来说明用开环指标作为参考实际意义不大

那么闭环方针验证是否能够解决开环模仿学习的问题呢？至少目前来讲学术界普遍依赖的CARLA闭环仿真系统来进行端到端的研发，但是基于游戏引擎的CARLA获得的模型也很难迁移到现实世界来。

疑惑四：端到端自动驾驶仅仅是一次算法革新？

最后端到端不仅仅是一个新的算法那么简单。模块化的自动驾驶系统不同模块的模型可以使用各自任务的数据分别迭代训练，然而端到端系统各个功能是同时进行训练的，这就要求训练数据具有极高的一致性，每条数据要对所有子任务标签都进行标注，一旦一种任务标注失败，那这条数据就很难在端到端训练任务中使用了，这对于自动标注Pipeline的成功率和性能提出了极高的要求。其次端到端系统因为需要所有模块都达到一个较高的性能水平才能在端到端的决策规划输出任务中达成较好的效果，因此普遍认为端到端系统数据门槛远高于各个单个模块的数据需求，而数据的门槛不仅是对绝对数量的要求，还对于数据的分布和多样性要求极高，这就是得自己没有车辆的完全控制权，不得不适配多个拥有不同车型客户的供应商在开发端到端系统时候可能遇到较大的困难。在算力门槛上，Musk曾在今年三月初在http://X.com上表示目前FSD的最大限制因素是算力，而在最近马老板则表示他们的算力问题得到了很大的环节，几乎就在同一时间在2024年Q1财报会议上Tesla透露如今他们已经拥有35000块H100的计算资源，并透漏在2024年底这一数字将达到85000块。毫无疑问Tesla拥有非常强大的算力工程优化能力，这意味着要达到FSD V12目前的水平，大概率35000块H100和数十亿美金的基础设施资本开销是必要前提，如果在算力使用方面不如Tesla高效，那么可能这一门槛会被进一步拔高。

3月初马斯克表示FSD的迭代主要限制因素是算力

4月初马斯克表示今年Tesla在算力方面的总投入将超过100亿美元

另外在http://X.com有网友分享了一张Nvidia汽车行业的高管Norm Marks在今年某次会议的截图，从中可以看出截止到2023年底，Tesla所拥有的NV显卡数量在柱状图上是完全爆表的存在（左图最右侧绿的箭头，中间文字说明了这个排名第一的OEM所拥有的NV显卡数量 > 7000个DGX节点，这个OEM显然就是Tesla，每个节点按照8卡计算，23年底Tesla大概有A100显卡超过56000卡，比排名第二的OEM多出四倍以上，这里我理解不包括2024年新购入的35000卡新款H100），再结合美国对出口中国显卡的限制政策，想要赶超这一算力的难度变得更加困难。

Norm Marks在某次内部分享截图，来源X.com@ChrisZheng001

除了上述数据算力挑战外，端到端的系统会遇到什么样的新挑战，如何保证系统的可控性，如何尽早发现问题，通过数据驱动的方式解决问题，并且在无法利用规则代码的情况下快速迭代，目前对于绝大多数自动驾驶研发团队而言都是一个未知的挑战。

最后端到端对于现在的自动驾驶研发团队还是一个组织变革，因为从L4自动驾驶以来，绝大多数自动驾驶团队的组织架构是模块化的，不仅分为感知组，预测组，定位组，规划控制组，甚至感知组还分视觉感知，激光感知等等。而端到端的技术架构直接干掉了不同模块间的接口壁垒，使得研发端到端的团队需要整合全部人力资源来适应新的技术范式，这对不够灵活的团队组织文化是一个极大的挑战。

以上就是2024年，端到端自动驾驶在国内是否会有实质性的突破和进展？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/418346.html

端到端自动驾驶

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

VSCode数据科学：Jupyter Notebook交互式编程环境

上一篇 2025年11月7日 08:35:24

曝只有 OPPO/vivo 在测试骁龙 8 Gen 5 友商更爱老旗舰

下一篇 2025年11月7日 08:35:30

好文分享

如何搭建C++自动驾驶环境 Apollo平台配置

搭建C++自动驾驶环境需先配置Ubuntu系统、Docker及NVIDIA驱动，再克隆Apollo代码并构建Docker镜像，进入容器后用bazel编译，启动Dreamview可视化界面，选择地图与模块运行Demo；常见问题如编译失败可清理缓存或更新依赖，自定义车辆模型和地图需掌握URDF与prot…

程序猿
2025年12月18日
0000
如何配置C++的自动驾驶规划环境 Apollo规划模块二次开发

为什么apollo规划模块的二次开发需要特定的环境配置？apollo使用docker和bazel是为了处理复杂的依赖关系、确保构建一致性、支持gpu加速以及提升团队协作效率。2. 在apollo环境中进行规划模块二次开发的关键步骤包括：准备宿主机环境、克隆apollo仓库、进入docker环境、编译…

程序猿
2025年12月18日 • 好文分享
0000
自动驾驶实时系统：确定性内存分配器开发指南

自动驾驶实时系统对确定性内存分配器的需求，是为了确保内存操作在可预测时间内完成，从而保障系统的稳定与安全。1. 预分配和内存池通过预先分配固定大小的内存块，实现o(1)时间复杂度的快速分配与释放，但可能导致内存浪费；2. bump allocator使用移动指针的方式实现极快的分配，但通常不支持单独…

程序猿
2025年12月18日 • 好文分享
0000
好文分享

如何在C++中进行自动驾驶和智能导航开发？

如何在C++中进行自动驾驶和智能导航开发？自动驾驶和智能导航是当今科技发展的热门领域之一。随着计算机硬件技术的快速发展和算法的不断完善，C++语言在自动驾驶和智能导航领域的应用越来越广泛。本文将介绍如何在C++中进行自动驾驶和智能导航的开发，并提供代码示例。传感器数据获取与处理自动驾驶和智能导…

程序猿
2025年12月17日
0000
好文分享

如何实现C++中的自动驾驶和智能交通系统？

如何实现C++中的自动驾驶和智能交通系统？自动驾驶和智能交通系统是目前人工智能领域的热门话题，它们的应用领域涉及到交通运输、安全防护和城市规划等多个方面。本文将探讨如何使用C++编程语言实现自动驾驶和智能交通系统，并提供相关的代码示例。了解自动驾驶和智能交通系统基本原理自动驾驶系统是指通过计算机…

程序猿
2025年12月17日
1000
无需电池即可实现「自动驾驶」，华盛顿大学开发出无限续航的机器人

不装电池，也能%ignore_a_1%的“车”出现了。甚至还会自动收集能量持续运行，完全没有里程焦虑（手动狗头）。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 不错，这么一个小机器人，其实靠的是光和无线电波供能。其名MilliMobil…

程序猿
2025年12月2日 • 用户投稿
0000
BEV下的Radar-Camera 融合跨数据集实验研究

原标题：cross-dataset experimental study of radar-camera fusion in bird’s-eye view论文链接：https://arxiv.org/pdf/2309.15465.pdf作者单位：opel automobile gmbh rhein…

程序猿
2025年12月2日 • 用户投稿
1000
遥遥领先！BEVHeight++：针对路侧视觉3D目标检测新方案！

回归到地面的高度，以实现距离不可知的公式，从而简化仅相机感知方法的优化过程。在路侧camera的3d检测基准上，方法大大超过了以前所有以视觉为中心的方法。它比bevdepth产生了+1.9%的nds和+1.1%的map的显著改善。在nuscenes测试集上，方法取得了实质性的进步，nds和map分别…

程序猿
2025年12月2日 • 用户投稿
0000
改进自动驾驶在不确定环境下的轨迹规划方法

论文题目：《基于改进的模型预测控制的自动驾驶车辆在不确定环境下的轨迹规划方法》发表期刊：IEEE Transactions on Intelligent Transportation Systems 发布日期：2023年04月以下是我自己的論文閱讀筆記，主要是我自己覺得重點的部分，非全文翻譯，該…

程序猿
2025年12月2日 • 用户投稿
4000
LeCun对自动驾驶独角兽的造假行为深感失望

你以为这是一个普通的自动驾驶视频吗？ ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片这个内容需要重新写成中文，而不改变原来的意思没有一帧是“真的”。图片不同路况、各种天气，20多种情况都能模拟，效果以假乱真。图片世界模型再次…

程序猿
2025年12月2日 • 用户投稿
0000
实战部署：动态时序网络用于端到端检测和跟踪

本文经自动驾驶之心公众号授权转载，转载请联系出处。相信除了少数自研芯片的大厂,绝大多数自动驾驶公司都会使用英伟达NVIDIA芯片,那就离不开TensorRT. TensorRT是在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。我们利用Pytorch、TF或者其他框架训练好的模型，可以首…

程序猿
2025年12月2日 • 用户投稿
1000
自动驾驶中的交通规则识别问题

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 自动驾驶中的交通规则识别问题，需要具体代码示例摘要：自动驾驶技术正在迅速发展，并且在未来有望实现商业化应用。然而，与此同时，自动驾驶车辆面临着一个重要的挑战，即交通规则的识别和遵守问题。本文将…

程序猿
2025年12月1日 • 用户投稿
0000
自动驾驶与轨迹预测看这一篇就够了！

轨迹预测在自动驾驶中承担着重要的角色，自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据，预测车辆未来的行驶轨迹。作为自动驾驶的核心模块，轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富，需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构（cnn&gnn&…

程序猿
2025年12月1日 • 用户投稿
0000
2024年自动驾驶标注行业是否会被世界模型所颠覆？

1.数据%ignore_a_1%面临的问题(特别是基于BEV 任务）随着基于BEV transformer 任务的兴起，随之带来的是对数据的依赖变的越来越重，基于BEV 任务的标注也变得越来越重要。目前来看无论是2D-3D的联合障碍物标注，还是基于重建点云的clip 的车道线或者Occpuancy…

程序猿
2025年12月1日 • 用户投稿
0000
“真假难辨”！巧用NeRF生成的自动驾驶仿真数据

写在前面&笔者的个人理解神经辐射场（NeRF）已成为推进自动驾驶（AD）重新搜索的前奏的工具，提供可扩展的闭环模拟和数据增强功能。然而，为了信任模拟中获得的结果，需要确保AD系统以相同的方式感知真实数据和渲染数据。尽管渲染方法的性能正在提高，但许多场景在忠实重建方面仍然具有固有的挑战性。为…

程序猿
2025年12月1日 • 用户投稿
1000
RV融合性能拉爆！RCBEVDet：Radar也有春天，最新SOTA！

写在前面&笔者的个人理解这篇讨论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环境视觉相机技术的发展为3D目标检测提供了高分辨率的语义信息，这种方法因无法精确捕获深度信息和在恶劣天气或低光照条件下的表现不佳等问题而受限。针对这一问题，讨论提出了一种结合环视相机和经济型毫米波…

程序猿
2025年12月1日 • 用户投稿
0000
马斯克预测：特斯拉全自动驾驶将在今年实现对AI深度变化感到担忧

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 他强调特斯拉已经接近实现无人干预的全%ignore_a_1%状态，并指出了全自动驾驶的实用性和提高汽车使用率的重要性。马斯克同时表示特斯拉对于与其他汽车制造商分享和许可自动驾驶技术非常感兴趣。 …

程序猿
2025年12月1日 • 用户投稿
0000
Gary Marcus：自动驾驶汽车状况频出，仍未赢得认可

2016年，《纽约时报》一篇关于%ign%ignore_a_1%re_a_1%汽车的文章开头写道：“自动驾驶汽车时代已经到来，一些汽车制造商已投资数十亿美元进行研发……并在美国的一些城市开始测试。”经过7年的时间，自动驾驶技术取得了哪些进展呢？纽约大学的心理学和神经科学荣誉教授Gary Marcu…

程序猿
2025年12月1日 • 用户投稿
0000
英国拟出新规，特斯拉或面临自动驾驶汽车禁售

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 据消息称，英国将出台《自动驾驶汽车法案》，特斯拉有可能被禁止在英国销售自动驾驶汽车。此举将给埃隆·马斯克和特斯拉带来重大挫折英国交通运输部计划明年发布相关法规，规定未经批准的汽车制造商不得将车…

程序猿
2025年12月1日 • 用户投稿
0000
初学者必备，NeRF学习笔记洞察一切！

神经辐射场究竟是什么辐射场：由光源发出的光线在场景中的传播和反射过程中所形成的能量分布。通俗来说就是一个函数，记录了空间某个位置处向某个方向的辐射信息，辐射信息（或者说能量分布）其实就是颜色、亮度、阴影等信息。这里的方向需要额外留意，它是nerf实现真实重建的重要因素之一！由此引出神经辐射场的概…

程序猿
2025年12月1日 • 用户投稿
1000