聊聊端到端与下一代自动驾驶系统,以及端到端自动驾驶的一些误区?

最近一个月由于众所周知的一些原因,非常密集地和行业内的各种老师同学进行了交流。交流中必不可免的一个话题自然是端到端与火爆的特斯拉 fsd v12。想借此机会,整理一下在当下这个时刻的一些想法和观点,供大家参考和讨论。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

聊聊端到端与下一代自动驾驶系统,以及端到端自动驾驶的一些误区?

如何定义端到端的自动驾驶系统,应该期望端到端解决什么问题?

按照最传统的定义,端到端的系统指的是一套系统,输入传感器的原始信息,直接输出任务关心的变量。例如,在图像识别中,CNN相对于传统的特征提取器+分类器的方法就可以称之为端到端。在自动驾驶任务中,输入各种传感器的数据(相机/LiDAR/Radar/IMU等),直接输出车辆行驶的控制信号(油门/方向盘角度等)。为了考虑不同车型之间的适配问题,也可以将输出放宽为车辆行驶的轨迹。这便是一种传统意义上的定义,或者说是我所谓的做狭义端到端的定义。在这样一个基础上,也衍生出了一些中间任务的监督来提升性能能力。

然而,除了这样狭义的定义之外,我们还应该从本质上思考一下,端到端的本质是什么?我认为端到端的本质应当是感知信息的无损传递。我们先回想一下在非端到端系统中,感知和PnC模块的接口是什么样子的。一般我们会有针对白名单物体(车,人,etc)的检测/属性分析/预测,会有对静态环境的理解(道路结构/限速/红绿灯,etc),如果做的更细致一些的话,还会做通用障碍物的一些检测工作。从宏观的角度来讲,感知输出的这些信息,都是对复杂驾驶场景的一种抽象,而且是人工定义的显式抽象。然而,对于一些非常见场景中,现在的显式抽象难以充分表达场景中会影响驾驶行为的因素,亦或是我们需要定义的任务过多过琐碎,也难以枚举尽所有需要的任务。所以端到端系统,提供了一种(也许是隐式)全面表示,希望能够自动地无损地将这样的信息作用于PnC。我认为,所有能满足这样的系统,都可以叫做广义端到端

对于其他的问题,比如对动态交互场景的一些优化,我个人的观点认为至少并非只有端到端才能解决这些问题,传统方法是可以解决好这些问题的。当然,在数据量足够大的时候,端到端可能会提供一个还不错的solution。关于这个事情是否有必要,会在后几个问题中展开讨论。

聊聊端到端与下一代自动驾驶系统,以及端到端自动驾驶的一些误区?

关于端到端自动驾驶的一些误区?

一定要输出控制信号和路点才是端到端

对于广义端到端的概念,如果能够认同上面所讲的概念,那么这个问题就很容易理解了。端到端的强调的是信息的无损传递,而不是一定要直接输出任务量。这样的端到端处理方法需要大量的兜底方案来保证安全,而且在实现过程中也会遇到一些问题,在后续处理中会逐渐展开。

端到端系统一定要基于大模型或者纯视觉

聊聊端到端与下一代自动驾驶系统,以及端到端自动驾驶的一些误区?

端到端自动驾驶的概念和大模型自动驾驶以及纯视觉自动驾驶没有任何必然的联系。这三个概念是完全独立存在的,一个端到端的系统不必一定是传统意义上的大模型驱动的,也不一定就是纯视觉。三者之间有一些关联,但不等同。

之前我有一篇文章详细阐述过这些概念之间的关系,详见:https://zhuanlan.zhihu.com/p/664189972

长远来看,上述狭义的端到端系统有没有可能实现L3级别以上自动驾驶?

其实我先想来吐槽一句,号称要用大模型来颠覆L4的人,都没有实际做过L4;号称端到端包治百病的人,也都从来没做过PnC。于是和很多对端到端狂热的人聊下来,就变成了一个纯粹的无法证实也无法证伪的宗教信仰之争。我们做前沿研发的同学,还是应该更实事求是,讲究证据一些。。。最起码对想要颠覆的东西有一些基础认知和了解一下其中棘手的问题,这是应该有的基本科学素质。。。

言归正传,目前来看,我是悲观的。暂且不论目前号称是纯端到端的FSD,性能还远远不能达到L3级别以上所需要的可靠性和稳定性,未来就算是统计意义上这个车辆和人是一样安全的,还要面临如何和人类驾驶员的错误做align的问题。更直白一点来说,就是说,一个自动驾驶系统想要让大众和舆论接受,关键可能不在于一个绝对的事故率和致死率,而是在于大众是否能接受有一些场景中,对于人类是相对轻松解决,而机器会犯错的。这个需求对于纯端到端系统来说更难以实现。更具体的在我21年的一个回答中有阐述,详见:

一键职达 一键职达

AI全自动批量代投简历软件,自动浏览招聘网站从海量职位中用AI匹配职位并完成投递的全自动操作,真正实现’一键职达’的便捷体验。

一键职达 79 查看详情 一键职达

如何看待李彦宏朋友圈发表:无人驾驶肯定会出事,只是这个概率比有人驾驶低多了?

https://www.zhihu.com/question/530828899/answer/2590673435?utm_psn=1762524415009697792

举在北美的Waymo和Cruise为例,其实分别都出过不少事故,但是为什么Cruise最后一次出现的事故让监管和大众尤为不能接受呢?这个事故发生了两次伤害,第一次的碰撞,对于人类驾驶员也是相当难以避免的,其实也是可以被接受的。但是在这一次的碰撞发生之后,发生了严重的二次伤害:系统错误地判断了碰撞位置和伤员位置,为了不阻塞交通,降级到了靠边停车的模式,将伤员拖拽很久。这样的一个行为,是任何一个正常的人类驾驶员都不会做出的事情,而且影响非常恶劣。这个事情直接导致了Cruise后续的一些动荡。这个事情其实也给我们敲响了警钟,如何避免这样的事情发生,应该是自动驾驶系统研发和运营中认真考虑的问题。

那么站在现在的这个时刻,下一代量产辅助驾驶系统中切实可行的方案是什么?

简单来说,我认为一个合适的系统应当是首先充分挖掘传统系统的能力上限,然后再去结合端到端的灵活和普适性,也就是一个渐进式端到端的方案。当然这两者如何有机地结合就是个付费内容了,哈哈。。。但是我们可以分析一下,现在所谓的端到端或者learning based planner实际落地在做的事情是什么。

以我有限的了解,目前所谓端到端模型在行车中使用的时候,在输出的轨迹之后都会去接一个基于传统方法兜底的方案,或者是这样的learning based planner和传统的轨迹规划算法会同时输出多条轨迹,再通过一个selector来选择一条执行。如果这样设计系统架构,这么一个级连系统的性能上限其实是被这样的兜底方案和selector限制住的。如果这样的方案仍然是基于纯feedforward learning的,仍会有不可预测的失效,本质上并不能达到兜底的目的。如果考虑在这样输出的轨迹上使用一个传统的规划方法再去优化或者选择,那相当于learning based方法出的轨迹,只是给这样的一个优化和搜索问题做了一个初始解,我们为何不直接去优化和搜索这样的轨迹呢?

当然有同学会跳出来讲,这样的一个优化或者搜索问题是非凸的,状态空间很大不可能在车载系统上跑到实时。我请大家在这里仔细想这样一个问题:在过去10年中,感知系统至少吃到了100x的算力红利发展,但是我们的PnC模块呢?如果我们同样允许PnC模块使用大算力,结合上近几年先进优化算法的一些发展,这样的结论仍然成立吗?针对这样的问题,我们不应该固步自封,路径依赖,而是应该从第一性原理思考什么才是对的。

聊聊端到端与下一代自动驾驶系统,以及端到端自动驾驶的一些误区?

数据驱动和传统方法之间关系如何调和?

其实和自动驾驶非常类似的一个例子就是下棋,刚好在今年2月份的时候Deepmind发表了一篇文章(Grandmaster-Level Chess Without Search:https://arxiv.org/abs/2402.04494)就在探索只用数据驱动,抛弃AlphaGo和AlphaZero中的MCTS search是否可行。类比到自动驾驶中就是,只用一个网络直接输出action,抛弃掉后续所有的步骤。文章的结论是,在相当的规模的数据和模型参数下,不用搜索仍然可以得到一个还算合理的结果,然而和加上搜索的方法比,还有非常显著的差距。(文章中这里的对比其实也不尽公平,实际差距应该更大)尤其是在解一些困难的残局上,纯数据驱动性能非常糟糕。这类比到自动驾驶中,也就是意味着,需要多步博弈的困难场景或corner case,仍然很难完全抛弃掉传统的优化或者搜索算法。像AlphaZero一样合理地运用各种技术的优势,才是最为高效提升性能的方式。

传统方法 = rule based if else?

这个观念也是我在和很多人的交流中需要反复纠正的。按照很多人的定义,只要不是纯数据驱动,就叫做rule based。还是举下棋这个例子,去死记硬背定式和棋谱是rule based,但是像AlphaGo和AlphaZero一样通过搜索和优化赋予模型reasoning的能力,我认为并不能叫做rule based。这恰恰也是目前大模型本身所欠缺的,也是研究者通过CoT等方式试图赋予一个learning based model的。然而人开车每一个动作都是有明确的动机的,这和需要纯数据驱动的图像识别等无法清晰描述原因的任务不同。在一个合适的算法架构设计下,决策轨迹都应该成为变量,在一个科学的目标指引下统一优化。而不是通过强行打patch和调参去修各种case。这样的一个系统自然也不会存在各种hardcode的奇怪的rule。

总结

最终总结一下,端到端也许是一个很有希望的技术路线,但是这样一个概念如何付诸实践还有很多有待探索的事情。是不是狂堆数据和模型参数就是唯一正确的解决方案,目前在我看来并不是的。我觉得,任何时刻作为一个前沿研究的技术人员,我们都应该真正奉行马斯克所讲的第一性原理和工程师思维,从实践中思考问题的本质,而不是将马斯克本身变成第一性原理。想要真正遥遥领先,就不应该放弃思考,人云亦云,否则就只能在不断想要弯道超车。

以上就是聊聊端到端与下一代自动驾驶系统,以及端到端自动驾驶的一些误区?的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/423404.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 10:21:20
下一篇 2025年11月7日 10:34:31

相关推荐

  • 无需电池即可实现「自动驾驶」,华盛顿大学开发出无限续航的机器人

    不装电池,也能%ignore_a_1%的“车”出现了。 甚至还会自动收集能量持续运行,完全没有里程焦虑(手动狗头)。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 不错,这么一个小机器人,其实靠的是光和无线电波供能。其名MilliMobil…

    2025年12月2日 科技
    000
  • BEV下的Radar-Camera 融合跨数据集实验研究

    原标题:cross-dataset experimental study of radar-camera fusion in bird’s-eye view论文链接:https://arxiv.org/pdf/2309.15465.pdf作者单位:opel automobile gmbh rhein…

    2025年12月2日 科技
    000
  • 遥遥领先!BEVHeight++:针对路侧视觉3D目标检测新方案!

    回归到地面的高度,以实现距离不可知的公式,从而简化仅相机感知方法的优化过程。在路侧camera的3d检测基准上,方法大大超过了以前所有以视觉为中心的方法。它比bevdepth产生了+1.9%的nds和+1.1%的map的显著改善。在nuscenes测试集上,方法取得了实质性的进步,nds和map分别…

    2025年12月2日 科技
    000
  • 改进自动驾驶在不确定环境下的轨迹规划方法

    论文题目:《基于改进的模型预测控制的自动驾驶车辆在不确定环境下的轨迹规划方法》 发表期刊:IEEE Transactions on Intelligent Transportation Systems 发布日期:2023年04月 以下是我自己的論文閱讀筆記,主要是我自己覺得重點的部分,非全文翻譯,該…

    2025年12月2日 科技
    000
  • LeCun对自动驾驶独角兽的造假行为深感失望

    你以为这是一个普通的自动驾驶视频吗? ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片 这个内容需要重新写成中文,而不改变原来的意思 没有一帧是“真的”。 图片 不同路况、各种天气,20多种情况都能模拟,效果以假乱真。 图片 世界模型再次…

    2025年12月2日 科技
    000
  • 实战部署:动态时序网络用于端到端检测和跟踪

    本文经自动驾驶之心公众号授权转载,转载请联系出处。 相信除了少数自研芯片的大厂,绝大多数自动驾驶公司都会使用英伟达NVIDIA芯片,那就离不开TensorRT. TensorRT是在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。我们利用Pytorch、TF或者其他框架训练好的模型,可以首…

    2025年12月2日 科技
    000
  • 自动驾驶中的交通规则识别问题

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 自动驾驶中的交通规则识别问题,需要具体代码示例 摘要:自动驾驶技术正在迅速发展,并且在未来有望实现商业化应用。然而,与此同时,自动驾驶车辆面临着一个重要的挑战,即交通规则的识别和遵守问题。本文将…

    2025年12月1日 科技
    000
  • 自动驾驶与轨迹预测看这一篇就够了!

    轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富,需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构(cnn&gnn&…

    2025年12月1日 科技
    000
  • 2024年自动驾驶标注行业是否会被世界模型所颠覆?

    1.数据%ignore_a_1%面临的问题(特别是基于BEV 任务) 随着基于BEV transformer 任务的兴起,随之带来的是对数据的依赖变的越来越重,基于BEV 任务的标注也变得越来越重要。目前来看无论是2D-3D的联合障碍物标注,还是基于重建点云的clip 的车道线或者Occpuancy…

    2025年12月1日 科技
    000
  • “真假难辨”!巧用NeRF生成的自动驾驶仿真数据

    写在前面&笔者的个人理解 神经辐射场(NeRF)已成为推进自动驾驶(AD)重新搜索的前奏的工具,提供可扩展的闭环模拟和数据增强功能。然而,为了信任模拟中获得的结果,需要确保AD系统以相同的方式感知真实数据和渲染数据。尽管渲染方法的性能正在提高,但许多场景在忠实重建方面仍然具有固有的挑战性。为…

    2025年12月1日 科技
    000
  • RV融合性能拉爆!RCBEVDet:Radar也有春天,最新SOTA!

    写在前面&笔者的个人理解 这篇讨论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环境视觉相机技术的发展为3D目标检测提供了高分辨率的语义信息,这种方法因无法精确捕获深度信息和在恶劣天气或低光照条件下的表现不佳等问题而受限。针对这一问题,讨论提出了一种结合环视相机和经济型毫米波…

    2025年12月1日 科技
    000
  • 马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 他强调特斯拉已经接近实现无人干预的全%ignore_a_1%状态,并指出了全自动驾驶的实用性和提高汽车使用率的重要性。马斯克同时表示特斯拉对于与其他汽车制造商分享和许可自动驾驶技术非常感兴趣。 …

    2025年12月1日 科技
    000
  • Gary Marcus:自动驾驶汽车状况频出,仍未赢得认可

    2016年,《纽约时报》一篇关于%ign%ignore_a_1%re_a_1%汽车的文章开头写道:“自动驾驶汽车时代已经到来,一些汽车制造商已投资数十亿美元进行研发……并在美国的一些城市开始测试。”经过7年的时间,自动驾驶技术取得了哪些进展呢? 纽约大学的心理学和神经科学荣誉教授Gary Marcu…

    2025年12月1日 科技
    000
  • 英国拟出新规,特斯拉或面临自动驾驶汽车禁售

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 据消息称,英国将出台《自动驾驶汽车法案》,特斯拉有可能被禁止在英国销售自动驾驶汽车。此举将给埃隆·马斯克和特斯拉带来重大挫折 英国交通运输部计划明年发布相关法规,规定未经批准的汽车制造商不得将车…

    2025年12月1日 科技
    000
  • 初学者必备,NeRF学习笔记洞察一切!

    神经辐射场究竟是什么 辐射场:由光源发出的光线在场景中的传播和反射过程中所形成的能量分布。通俗来说就是一个函数,记录了空间某个位置处向某个方向的辐射信息,辐射信息(或者说能量分布)其实就是颜色、亮度、阴影等信息。这里的方向需要额外留意,它是nerf实现真实重建的重要因素之一! 由此引出神经辐射场的概…

    2025年12月1日 科技
    000
  • 人工智能如何为未来智能大众出行解决方案铺平道路

    预计到2030年,有60%的人口将生活在城市地区。为了实现城镇化的进步,高效的人员流动至关重要。在各种公共交通方式中,铁路被认为是每乘客公里能源消耗最高效、最有效的选择。这是因为铁路系统不仅可以大大缓解城市拥堵问题,还能减少环境污染和交通事故的发生率。提升铁路网络的质量和覆盖范围,将有助于促进城市发…

    2025年12月1日 科技
    000
  • 清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力

    在自动驾驶领域,研究人员也在朝着 gpt/sora 等大模型方向进行探索。 与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。…

    2025年12月1日 科技
    000
  • 特斯拉:坚持视觉处理方案

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 近日,%ignore_a_1%官方发布声明,强调继续采用视觉处理方案,致力于让每个人都能负担得起安全且智能的产品。通过特斯拉的视觉处理方案和端到端神经网络,结合数十亿真实世界数据样本的训练,实现…

    2025年12月1日
    000
  • 全球首个,中国将主持编制铁路自动驾驶国际标准

    本站 7 月 11 日消息,据中国铁道建筑报报道,日前,在瑞典斯德哥尔摩召开的国际标准化组织 ISO / TC269 / SC3 第 9 次全体大会上,经过法国、德国、日本等 13 个国家的专家及 UIC 观察员全体投票,一致同意通过了由中国铁建铁四院技术专家冯梅牵头的《应用自动驾驶模式的运营规则导…

    2025年11月29日 行业动态
    000
  • 前特斯拉总监、OpenAI大牛Karpathy:我被自动驾驶分了心,AI智能体才是未来!

    近日,OpenAI联合创始人,曾经TeslaAI总监,现在又重新返回OpenAI的Andrej Karpathy在一个开发者活动上,分享了自己对于AI智能体的看法。 7年前,研究AI智能体的时机还不成熟 他先聊到了自己早期在OpenAI工作时(2016年左右),当时的业界潮流就是研究如何用强化学习的…

    2025年11月28日 科技
    000

发表回复

登录后才能评论
关注微信