新标题:ADAPT:端到端自动驾驶可解释性的初步探索

本文经自动驾驶之心公众号授权转载,转载请联系出处。

笔者的个人思考

端到端是今年非常火的一个方向,今年的CVPR best paper也颁给了UniAD,但端到端同样也存在很多问题,比如可解释性不高、训练难收敛等等,领域的一些学者开始逐渐把注意力转到端到端的可解释性上,今天为大家分享端到端可解释性的最新工作ADAPT,该方法基于Transformer架构,通过多任务联合训练的方式端到端地输出车辆动作描述及每个决策的推理。笔者对ADAPT的一些思考如下:

这里是用视频的2D 的feature来做的预测, 有可能把2D feature转化为 bev feature之后效果会更好.与LLM结合效果可能会更好, 比如 Text Generation那部分换成LLM.当前这个工作是拿历史的视频作为输入, 预测的action及其描述也是历史的, 如果改成预测将来的action以及action对应的原因的话可能更有意义.image token化那块儿得到的  token 有点儿多,可能有很多没有用的信息, 或许可以试试Token-Learner.

出发点是什么?

端到端自动驾驶在交通行业具有巨大潜力,而且目前对这方面的研究比较火热。像CVPR2023的best paper UniAD 做的就是端到端的自动驾驶。但是, 自动决策过程缺乏透明度和可解释性会阻碍它的发展, 毕竟实车上路,是要安全第一的。早期已经有一些尝试使用 attention map 图或 cost volume 来提高模型的可解释性,但这些方式很难理解。那么这篇工作的出发点,就是寻求一种好理解的方式来解释决策。下图是几种方式的对比, 显然用语言表达更容易理解。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

ADAPT有什么优势?

能够端到端地输出车辆动作描述及每个决策的推理;该方法基于transformer的网络结构, 通过multi-task的方式进行联合训练;在BDD-X(Berkeley DeepDrive eXplanation) 数据集上达到了SOTA的效果;为了验证该系统在真实场景中的有效性, 建立了一套可部署的系统, 这套系统能够输入原始的视频, 实时地输出动作的描述及推理;

效果展示

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

看效果还是非常不错的, 尤其是第三个黑夜的场景, 红绿灯都注意到了。

目前领域的进展

Video Captioning

视频描述的主要目标是用自然语言描述给定视频的对象及其关系。早期的研究工作通过在固定模板中填充识别的元素来生成具有特定句法结构的句子,这些模板不灵活且缺乏丰富性。

为了生成具有灵活句法结构的自然句子,一些方法采用序列学习的技术。具体而言,这些方法使用视频编码器来提取特征,并使用语言解码器来学习视觉文本对齐。为了使描述更加丰富,这些方法还利用对象级别的表示来获取视频中详细的对象感知交互特征

虽然现有的架构在一般 video captioning 方向取得了有一定的结果,但它不能直接应用于动作表示,因为简单地将视频描述转移到自动驾驶动作表示会丢失掉一些关键信息,比如车辆速度等,而这些对于自动驾驶任务来说至关重要。如何有效地利用这些多模态信息来生成句子目前仍在探索中。PaLM-E 在多模态句子这块儿是个不错的工作。

端到端自动驾驶

Learning-based 的自动驾驶是一个活跃的研究领域。最近CVPR2023 的best-paper UniAD, 包括后面的 FusionAD, 以及Wayve的基于World model的工作 MILE 等都是这个方向的工作。输出地形式有出轨迹点的,像UniAD, 也有直接出车辆的action的, 像MILE。

此外,一些方法对车辆、骑自行车者或行人等交通参与者的未来行为进行建模,以预测车辆的路径点,而另外一些方法则直接根据传感器输入来预测车辆的控制信号,类似于这个工作中的控制信号预测子任务

自动驾驶的可解释性

在自动驾驶领域中,大部分可解释性的方法都是基于视觉的,还有一些是基于LiDAR的工作。一些方法利用注意力图来过滤掉不显著的图像区域,使得自动驾驶车辆的行为看起来合理且可解释。然而,注意力图可能会包含一些不太重要的区域。还有一些方法使用激光雷达和高精度地图作为输入,预测其他交通参与者的边界框,并利用成本体来解释决策推理过程。此外,还有一种方法通过分割来构建在线地图,以减少对高清地图的依赖。尽管基于视觉或激光雷达的方法可以提供良好的结果,但缺乏语言解释使得整个系统看起来复杂且难以理解。一项研究首次探索了自动驾驶车辆的文本解释可能性,通过离线提取视频特征来预测控制信号,并进行视频描述的任务

自动驾驶中的Multi-task learning

这个端到端的框架采用多任务学习,用文本生成和预测控制信号这两个任务来联合训练模型。多任务学习在自动驾驶中用的非常多。由于更好的数据利用和共享特征,不同任务的联合训练提高了各个任务的性能,因此这个工作中, 采用的是控制信号预测和文本生成这两个任务的联合训练。

ADAPT方法

以下是网络结构图:

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

整个结构被分成了两个任务:

Driving Caption Generation(DCG): 输入videos, 输出两个句子, 第一句描述自车的action,第二句描述采取这个action的推理, 比如 “The car is accelerating, because the traffic lights turn green.”Control Signal Prediction(CSP) : 输入相同的videos, 输出一串控制信号, 比如速度,方向, 加速度.

其中, DCG和CSP两个任务是共享 Video Encoder, 只是采用不同的prediction heads来产生不同的最终输出。

对于 DCG 任务, 是用 vision-language transformer encoder产生两个自然语言的句子。

针对CSP任务,使用运动转换编码器来预测控制信号的序列

Video Encoder

这里采用的是 Video Swin Transformer 将输入的video frames 转为 video feature tokens。

输入  桢 image, shape 为 , 出来的feature的size 是 , 这里的  是channel的维度.

Prediction Heads

Text Generation Head

上面这个feature  , 经过token化得到  个 维度为  的video token, 然后经过一个MLP 调整维度与 text tokens的embedding对齐, 之后将 text tokens和 video tokens 一起喂给 vision-language transformer encoder, 产生动作描述和推理。

猫眼课题宝 猫眼课题宝

5分钟定创新选题,3步生成高质量标书!

猫眼课题宝 85 查看详情 猫眼课题宝

Control Signal Prediction Head

和输入的 桢video 对应着的 有 控制信号 , CSP head的输出是 , 这里每一个控制信号不一定是一维的, 可以是多维的, 比如同时包括速度,加速度,方向等。这里的做法是 把video features token化了之后, 经过motion transformer 产生一串输出信号, loss 函数是MSE,

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

需要注意的是,在这里并没有包含第一帧,因为第一帧提供的动态信息太少了

Joint Training

在这个框架中, 因为共享的video encoder, 因此其实是假设CSP和DCG这两个任务在 video representation的层面上是对齐的。出发点是动作描述和控制信号都是车辆细粒度动作的不同表达形式,动作推理解释主要关注影响车辆动作的驾驶环境。

采用联合训练的方式进行训练

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

需要注意的是, 虽然是联合训练地,但是推理的时候,却可以独立执行, CSP任务很好理解, 根据流程图直接输入视频,输出控制信号即可, 对于DCG任务, 直接输入视频, 输出描述和推理, Text 的产生是基于自回归的方式一个单词一个单词的产生, 从[CLS]开始, 结束于 [SEP]或者是达到了长度阈值。

实验设计与对比

数据集

使用的数据集是  BDD-X, 这个数据集包含了 7000段成对的视频和控制信号。每段视频大约40s, 图像的大小是 , 频率是 FPS, 每个video都有1到5种车辆的行为,比如加速,右转,并线。所有这些行为都有文本注释,包括动作叙述(例如,“汽车停下来”)和推理(例如,“因为交通灯是红色的”)。总共大约有 29000 个行为注释对。

具体实现细节

video swin transformer 在 Kinetics-600 上面预训练过vision-language transformer 和 motion transformer是随机初始化的没有固定 video swin 的参数, 所以整个是端到端训练的输入的视频桢大小经过resize和crop, 最终输入网络的是 224×224对于描述和推理,用的是WordPiece embeddings [75] 而不是整个words,  (e.g., ”stops” is cut to ”stop” and ”#s”), 每个句子的最大长度是15训练的时候对于 masked language modeling 会随机mask掉50%的tokens, 每个mask的token 有80%的概率 会成为 【MASK】这个token, 有10%的概率会随机选择一个word, 剩下的10%的概率保持不变。用的是AdamW 的优化器, 并且在前10%的训练 steps中, 有warm-up的机制用4个V100的GPU大约要训练13个小时

联合训练的影响

这里对比了三个实验说明了联合训练的有效性.

Single

指的是把CSP任务移掉,只保留着DCG的任务, 相当于只训 captioning 模型.

Single+

尽管CSP的任务仍然不存在,但在输入DCG模块时,除了视频标记之外,还需要输入控制信号标记

效果对比如下

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

相比只有DCG任务,ADAPT的Reasoning效果明显更好。虽然有控制信号输入时效果有所提升,但是仍然不及加入CSP任务的效果好。加入CSP任务后,对视频的表示和理解能力更强

另外下面这个表格也说明了联合训练对于 CSP的效果也是有提升的.

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

这里  可以理解为精度, 具体会把预测的控制信号做一个截断,公式如下

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

不同类型控制信号的影响

在实验中,使用的基础信号有速度和航向。然而,实验发现,当只使用其中任何一个信号时,效果都不如同时使用两个信号的效果好,具体数据如下表所示:

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

这表明速度和方向这两个信号可以帮助网络更好地学习动作描述和推理

动作描述与推理之间的交互

与一般描述任务相比,驾驶描述任务生成是两个句子,即动作描述和推理。通过下表可以发现:

第1,3行说明使用cross attention效果要更好一些, 这也好理解, 基于描述来做推理有利于模型的训练;第2,3行说明交换推理和描述的顺序也会掉点, 这说明了推理是依赖于描述的;后面三行对比来看, 只输出描述和只输出推理都不如二者都输出的时候效果好;

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

Sampling Rates 的影响

这个结果是可以猜到的, 使用的帧越多,结果越好,但是对应的速度也会变慢, 如下表所示

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

新标题:ADAPT:端到端自动驾驶可解释性的初步探索

需要重写的内容是:原文链接:https://mp.weixin.qq.com/s/MSTyr4ksh0TOqTdQ2WnSeQ

以上就是新标题:ADAPT:端到端自动驾驶可解释性的初步探索的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/483678.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 12:29:29
下一篇 2025年11月8日 12:30:34

相关推荐

  • 苹果发布 Safari 技术预览版 223:聚焦稳定性与性能优化

    近日,苹果公司推出了 safari 技术预览版的最新版本 223,该版本属于其专为开发者和早期用户打造的实验性浏览器更新。本次更新的重点在于修复已知问题并提升性能表现,目的是为未来正式版 safari 浏览器打下更坚实的基础。 自 2016 年首次发布以来,Safari 技术预览版一直是开发者测试 …

    2025年12月2日
    000
  • 无需电池即可实现「自动驾驶」,华盛顿大学开发出无限续航的机器人

    不装电池,也能%ignore_a_1%的“车”出现了。 甚至还会自动收集能量持续运行,完全没有里程焦虑(手动狗头)。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 不错,这么一个小机器人,其实靠的是光和无线电波供能。其名MilliMobil…

    2025年12月2日 科技
    000
  • BEV下的Radar-Camera 融合跨数据集实验研究

    原标题:cross-dataset experimental study of radar-camera fusion in bird’s-eye view论文链接:https://arxiv.org/pdf/2309.15465.pdf作者单位:opel automobile gmbh rhein…

    2025年12月2日 科技
    000
  • 遥遥领先!BEVHeight++:针对路侧视觉3D目标检测新方案!

    回归到地面的高度,以实现距离不可知的公式,从而简化仅相机感知方法的优化过程。在路侧camera的3d检测基准上,方法大大超过了以前所有以视觉为中心的方法。它比bevdepth产生了+1.9%的nds和+1.1%的map的显著改善。在nuscenes测试集上,方法取得了实质性的进步,nds和map分别…

    2025年12月2日 科技
    000
  • 改进自动驾驶在不确定环境下的轨迹规划方法

    论文题目:《基于改进的模型预测控制的自动驾驶车辆在不确定环境下的轨迹规划方法》 发表期刊:IEEE Transactions on Intelligent Transportation Systems 发布日期:2023年04月 以下是我自己的論文閱讀筆記,主要是我自己覺得重點的部分,非全文翻譯,該…

    2025年12月2日 科技
    000
  • LeCun对自动驾驶独角兽的造假行为深感失望

    你以为这是一个普通的自动驾驶视频吗? ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片 这个内容需要重新写成中文,而不改变原来的意思 没有一帧是“真的”。 图片 不同路况、各种天气,20多种情况都能模拟,效果以假乱真。 图片 世界模型再次…

    2025年12月2日 科技
    000
  • 实战部署:动态时序网络用于端到端检测和跟踪

    本文经自动驾驶之心公众号授权转载,转载请联系出处。 相信除了少数自研芯片的大厂,绝大多数自动驾驶公司都会使用英伟达NVIDIA芯片,那就离不开TensorRT. TensorRT是在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。我们利用Pytorch、TF或者其他框架训练好的模型,可以首…

    2025年12月2日 科技
    000
  • 制造领域中的人工智能应用

    在制造市场中,机器视觉已经成为许多人工智能应用的重要组成部分。随着人工智能进入制造车间,这些标准变得尤为关键 讯飞智作-虚拟主播 讯飞智作是一款集AI配音、虚拟人视频生成、PPT生成视频、虚拟人定制等多功能的AI音视频生产平台。已广泛应用于媒体、教育、短视频等领域。 6 查看详情 在推动视觉应用的多…

    2025年12月2日
    000
  • 国产屏下 3D 人脸识别技术进入测试阶段 华为还是小米首发?

    7 月 14 日,”数码闲聊站” 消息称,有厂商正在实验室中对国产屏下 3d 人脸识别技术进行版本测试,这表明该技术正逐步迈向成熟,未来有望在智能手机领域实现应用。 近年来,屏下 3D 人脸识别技术成为智能手机设计的重要突破,其目标是将 3D 人脸识别模块完全置于屏幕下方,从…

    2025年12月2日
    000
  • TCL 华星发布电竞 MNT 显示技术,以 “屏宇宙” 生态领跑全球电竞显示赛道

    8 月 1 日,中国 上海]2025 年第二十二届中国国际数码互动娱乐展览会(简称“chinajoy2025”)今日盛大启幕。tcl 华星以“屏定次元 热爱全开”为参展主题,联合三星、联想、华硕、tcl、aoc、飞利浦、iqoo、acer、msi、lg、雷鸟等众多知名合作伙伴惊艳亮相。展会期间,tc…

    2025年12月2日 硬件教程
    000
  • 语音合成技术中的流畅度问题

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 语音合成技术中的流畅度问题,需要具体代码示例 随着人工智能的发展,语音合成技术在各个领域得到广泛应用,比如虚拟助手、无人驾驶等。然而,在使用语音合成技术时,我们常常会遇到一些流畅度不佳的问题,例…

    2025年12月1日 科技
    000
  • 目标检测技术中的多目标跟踪问题

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 目标检测技术中的多目标跟踪问题 摘要:目标检测是计算机视觉领域的热门研究方向之一,它旨在从图像或视频中识别并定位出感兴趣的目标。然而,仅仅进行目标检测并不能满足实际需求,因为在真实场景中,目标通…

    2025年12月1日 科技
    000
  • 图像生成技术中的细节真实度问题

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图像生成技术中的细节真实度问题,需要具体代码示例 摘要:图像生成技术的发展和进步为许多领域提供了巨大的机遇和挑战。然而,尽管目前的算法能够生成逼真的图像,但其中的细节真实度问题仍然是一个挑战。本…

    2025年12月1日 科技
    000
  • 自动驾驶中的交通规则识别问题

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 自动驾驶中的交通规则识别问题,需要具体代码示例 摘要:自动驾驶技术正在迅速发展,并且在未来有望实现商业化应用。然而,与此同时,自动驾驶车辆面临着一个重要的挑战,即交通规则的识别和遵守问题。本文将…

    2025年12月1日 科技
    000
  • 自动驾驶与轨迹预测看这一篇就够了!

    轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富,需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构(cnn&gnn&…

    2025年12月1日 科技
    000
  • 2024年自动驾驶标注行业是否会被世界模型所颠覆?

    1.数据%ignore_a_1%面临的问题(特别是基于BEV 任务) 随着基于BEV transformer 任务的兴起,随之带来的是对数据的依赖变的越来越重,基于BEV 任务的标注也变得越来越重要。目前来看无论是2D-3D的联合障碍物标注,还是基于重建点云的clip 的车道线或者Occpuancy…

    2025年12月1日 科技
    000
  • “真假难辨”!巧用NeRF生成的自动驾驶仿真数据

    写在前面&笔者的个人理解 神经辐射场(NeRF)已成为推进自动驾驶(AD)重新搜索的前奏的工具,提供可扩展的闭环模拟和数据增强功能。然而,为了信任模拟中获得的结果,需要确保AD系统以相同的方式感知真实数据和渲染数据。尽管渲染方法的性能正在提高,但许多场景在忠实重建方面仍然具有固有的挑战性。为…

    2025年12月1日 科技
    000
  • RV融合性能拉爆!RCBEVDet:Radar也有春天,最新SOTA!

    写在前面&笔者的个人理解 这篇讨论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环境视觉相机技术的发展为3D目标检测提供了高分辨率的语义信息,这种方法因无法精确捕获深度信息和在恶劣天气或低光照条件下的表现不佳等问题而受限。针对这一问题,讨论提出了一种结合环视相机和经济型毫米波…

    2025年12月1日 科技
    000
  • 十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

    0、 前言 11月30日,OpenAI推出了一个名为ChatGPT的AI聊天机器人,可以供公众免费测试,短短几天就火爆全网。 从头条、公众号上多个宣传来看,它既能写代码、查BUG,还能写小说、写游戏策划,包括向学校写申请书等,貌似无所不能。 本着科(好)学(奇)的精神,抽了一些时间对ChatGPT进…

    2025年12月1日 科技
    000
  • 元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者

    扬子晚报网讯 (记者 孙庆云)“小朋友们挥挥手,由今入古,通过%ignore_a_1%数字技术,我们一起来穿梭大运河了”……7月2日,江苏书展举办第二天,位于主展场“c”位附近的数字阅读馆,似乎很受逛展小读者的欢迎。 面向屏幕,小手挥一挥,荧屏上跳出的大运河数字画面就一一呈现,带着蹲坐在地上的小读者…

    2025年12月1日 科技
    000

发表回复

登录后才能评论
关注微信