进一步加速落地:压缩自动驾驶端到端运动规划模型

原标题:on the road to portability: compressing end-to-end motion planner for autonomous driving

论文链接:https://arxiv.org/pdf/2403.01238.pdf

代码链接:https://github.com/tulerfeng/PlanKD

作者单位:北京理工大学 ALLRIDE.AI 河北省大数据科学与智能技术重点实验室

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

进一步加速落地:压缩自动驾驶端到端运动规划模型

论文思路

端到端的运动规划模型配备了深度神经网络,在实现全自动驾驶方面展现出了巨大潜力。然而,过大的神经网络使得它们不适合部署在资源受限的系统上,这无疑需要更多的计算时间和资源。为了解决这个问题,知识蒸馏提供了一种有前景的方法,它通过使一个较小的学生模型从较大的教师模型学习来压缩模型。尽管如此,如何应用知识蒸馏来压缩运动规划器到目前为止还未被探索。本文提出了 PlanKD,这是第一个为压缩端到端运动规划器量身定制的知识蒸馏框架。首先,考虑到驾驶场景本质上是复杂的,常常包含与规划无关或甚至是噪声信息,迁移这种信息对学生规划器并无益处。因此,本文设计了一种基于信息瓶颈(information bottleneck)的策略,只蒸馏与规划相关的信息,而不是无差别地迁移所有信息。其次,输出规划轨迹中的不同 waypoints 可能对运动规划的重要性各不相同,某些关键 waypoints 的轻微偏差可能会导致碰撞。因此,本文设计了一个 safety-aware waypoint-attentive 的蒸馏模块,根据重要性为不同 waypoints 分配自适应权重,以鼓励学生模型更准确地模仿更关键的 waypoints ,从而提高整体安全性。实验表明,本文的 PlanKD 可以大幅提升小型规划器的性能,并显著减少它们的参考时间。

主要贡献:

本文构建了第一个旨在探索专用知识蒸馏方法以压缩自动驾驶中端到端运动规划器的尝试。本文提出了一个通用且创新的框架 PlanKD,它使学生规划器能够继承中间层中与规划相关的知识,并促进关键 waypoints 的准确匹配以提高安全性。实验表明,本文的 PlanKD 可以大幅提升小型规划器的性能,从而为资源有限的部署提供了一个更便携、更高效的解决方案。

网络设计:

端到端运动规划最近作为自动驾驶中的一个有前景的方向出现[3, 10, 30, 31, 40, 47, 48],它直接将原始传感器数据映射到规划的动作上。这种基于学习的范式展现出减少对手工制定规则的严重依赖和减轻在复杂级联模块(通常是检测-跟踪-预测-规划)[40, 48]内错误累积的优点。尽管取得了成功,但运动规划器中深度神经网络庞大的架构为在资源受限环境中的部署带来了挑战,例如依赖边缘设备计算能力的自动配送机器人。此外,即便是在常规车辆中,车载设备上的计算资源也经常是有限的[34]。因此,直接部署深层且庞大的规划器不可避免地需要更多的计算时间和资源,这使得快速响应潜在危险变得具有挑战性。为了缓解这个问题,一个直接的方法是通过使用较小的主干网络来减少网络参数的数量,但本文观察到,端到端规划模型的性能会急剧下降,如图1所示。例如,尽管当 InterFuser [33](一个典型的端到端运动规划器)的参数数量从52.9M减少到26.3M时,推理时间降低了,但其驾驶得分也从53.44下降到了36.55。因此,有必要开发一种适用于端到端运动规划的模型压缩方法。

为了得到一个便携的运动规划器,本文采用知识蒸馏[19]来压缩端到端运动规划模型。知识蒸馏(KD)已经在各种任务中被广泛研究用于模型压缩,例如目标检测[6, 24]、语义分割[18, 28]等。这些工作的基本思想是通过从更大的教师模型继承知识来训练一个简化的学生模型,并在部署期间使用学生模型来替代教师模型。虽然这些研究取得了显著的成功,但直接将它们应用于端到端运动规划会导致次优结果。这源于运动规划任务中固有的两个新出现的挑战:(i) 驾驶场景本质上是复杂的[46],涉及包括多个动态和静态物体、复杂的背景场景以及多方面的道路和交通信息在内的多样化信息。然而,并不是所有这些信息都对规划有益。例如,背景建筑物和远处的车辆对规划来说是无关的甚至是噪音[41],而附近的车辆和交通灯则有确定性的影响。因此,自动地只从教师模型中提取与规划相关的信息至关重要,而以往的KD方法无法做到这一点。(ii) 输出规划轨迹中的不同 waypoints 通常对运动规划的重要性各不相同。例如,在导航一个交叉口时,轨迹中靠近其他车辆的 waypoints 可能比其他 waypoints 具有更高的重要性。这是因为在这些点,自车需要主动与其他车辆互动,即使是微小的偏差也可能导致碰撞。然而,如何自适应地确定关键 waypoints 并准确地模仿它们是以往KD方法的另一个重大挑战。

为了解决上述两个挑战,本文提出了第一个为压缩自动驾驶中端到端运动规划器量身定制的知识蒸馏方法,称为 PlanKD 。首先,本文提出了一个基于信息瓶颈原理[2]的策略,其目标是提取包含最少且足够规划信息的与规划相关的特征。具体来说,本文最大化提取的与规划相关特征和本文定义的规划状态的真值之间的互信息,同时最小化提取特征和中间特征映射之间的互信息。这一策略使本文能够只在中间层提取关键的与规划相关的信息,从而增强学生模型的有效性。其次,为了动态识别关键 waypoints 并如实地模仿它们,本文采用注意力机制[38]计算每个 waypoints 及其在鸟瞰图(BEV)中与关联上下文之间的注意力权重。为了在蒸馏过程中促进对安全关键 waypoints 的准确模仿,本文设计了一个 safety-aware ranking loss ,鼓励对于靠近移动障碍物的 waypoints 给予更高的注意力权重。相应地,学生规划器的安全性可以显著增强。如图1所示的证据显示,通过本文的 PlanKD,学生规划器的驾驶得分可以显著提高。此外,本文的方法可以将参考时间降低约50%,同时保持与教师规划器在 Town05 Long Benchmark 上相当的性能。

进一步加速落地:压缩自动驾驶端到端运动规划模型

图1. 在 Town05 Long Benchmark [31]上,随着参数数量的减少,InterFuser[33] 性能下降的示意图。通过利用本文的 PlanKD ,可以提升紧凑型运动规划器的性能,并且显著降低参考时间。推理时间在服务器上的 GeForce RTX 3090 GPU 上进行评估。

豆包大模型 豆包大模型

字节跳动自主研发的一系列大型语言模型

豆包大模型 834 查看详情 豆包大模型

进一步加速落地:压缩自动驾驶端到端运动规划模型

图2. 本文的 PlanKD 框架示意图。PlanKD 由两个模块组成:一个与规划相关的特征蒸馏模块,通过信息瓶颈(IB)从中间特征映射中提取与规划相关的特征;一个 safety-aware waypoint-attentive 蒸馏模块,动态确定关键 waypoints ,并从中提取知识以增强整体安全性。

实验结果:

进一步加速落地:压缩自动驾驶端到端运动规划模型

图3. 在不同驾驶场景下,safety-aware 注意力权重的可视化。绿色块代表自车(ego-vehicle),黄色块代表其他道路使用者(例如汽车、自行车)。一个 waypoint 的颜色越红,它的注意力权重就越高。

进一步加速落地:压缩自动驾驶端到端运动规划模型进一步加速落地:压缩自动驾驶端到端运动规划模型进一步加速落地:压缩自动驾驶端到端运动规划模型进一步加速落地:压缩自动驾驶端到端运动规划模型

总结:

本文提出了 PlanKD,这是一种为压缩端到端运动规划器量身定制的知识蒸馏方法。所提出的方法可以通过信息瓶颈学习与规划相关的特征,以实现有效的特征蒸馏。此外,本文设计了一个 safety-aware waypoint-attentive 蒸馏机制,以适应性地决定每个 waypoint 对 waypoint 蒸馏的重要性。广泛的实验验证了本文方法的有效性,证明了 PlanKD 可以作为资源有限部署的便携式和安全的解决方案。

引用:

Feng K, Li C, Ren D, et al. On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving[J]. arXiv preprint arXiv:2403.01238, 2024.

以上就是进一步加速落地:压缩自动驾驶端到端运动规划模型的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/425542.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 11:22:01
下一篇 2025年11月7日 11:23:22

相关推荐

  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • AI 越聪明越不听话!新研究:最强推理模型指令遵循率仅 50%

    如果面前有两个 ai 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

    2025年12月3日 硬件教程
    100
  • 《梦幻西游》全新赛事祥瑞即将来袭,剪影图曝光

    《梦幻西游》电脑版全新赛事祥瑞曝光,11月将会和广大玩家正式亮相!你们猜猜这只祥瑞是以什么为原型做的设计,以及和梦幻接下来的什么活动有关 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻…

    2025年12月2日 行业动态
    000
  • 《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!

    《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队! 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!的详细内容,更多请关注…

    2025年12月2日
    000
  • 无需电池即可实现「自动驾驶」,华盛顿大学开发出无限续航的机器人

    不装电池,也能%ignore_a_1%的“车”出现了。 甚至还会自动收集能量持续运行,完全没有里程焦虑(手动狗头)。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 不错,这么一个小机器人,其实靠的是光和无线电波供能。其名MilliMobil…

    2025年12月2日 科技
    000
  • 探究词表选择对语言模型训练的影响:一项具有突破性的研究

    语言模型受不同词表的影响有哪些?如何平衡这些影响? 在最近的一项实验中,研究者对16个语言模型进行了不同的语料预训练和微调。这次实验使用了NanoGPT,一种小规模的架构(基于GPT-2 SMALL),共训练了12个模型。NanoGPT的网络架构配置为:12个注意力头、12层transformer,…

    2025年12月2日 科技
    000
  • ICCV’23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶

    在法国巴黎举行的计算机视觉顶峰大会iccv 2023刚刚结束! 今年的最佳论文奖,简直是“神仙打架”。 例如,获得最佳论文奖的两篇论文中,就包括颠覆文生图AI领域的著作——ControlNet。 自从开源以来,ControlNet在GitHub上已经获得了24k个星。无论是对于扩散模型还是整个计算机…

    2025年12月2日 科技
    000
  • BEV下的Radar-Camera 融合跨数据集实验研究

    原标题:cross-dataset experimental study of radar-camera fusion in bird’s-eye view论文链接:https://arxiv.org/pdf/2309.15465.pdf作者单位:opel automobile gmbh rhein…

    2025年12月2日 科技
    000
  • 遥遥领先!BEVHeight++:针对路侧视觉3D目标检测新方案!

    回归到地面的高度,以实现距离不可知的公式,从而简化仅相机感知方法的优化过程。在路侧camera的3d检测基准上,方法大大超过了以前所有以视觉为中心的方法。它比bevdepth产生了+1.9%的nds和+1.1%的map的显著改善。在nuscenes测试集上,方法取得了实质性的进步,nds和map分别…

    2025年12月2日 科技
    000
  • 最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星

    如果你曾经与任何一款对话式 AI 机器人交流过,你一定会记得一些令人感到非常沮丧的时刻。比如,你在前一天的对话中提到的重要事项,被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文,就像为考试而临时抱佛脚的学生,稍加盘问就会「露出马脚」。 如果AI助手能够在聊天中根据上下文参考…

    2025年12月2日 科技
    000
  • 改进自动驾驶在不确定环境下的轨迹规划方法

    论文题目:《基于改进的模型预测控制的自动驾驶车辆在不确定环境下的轨迹规划方法》 发表期刊:IEEE Transactions on Intelligent Transportation Systems 发布日期:2023年04月 以下是我自己的論文閱讀筆記,主要是我自己覺得重點的部分,非全文翻譯,該…

    2025年12月2日 科技
    000
  • LeCun对自动驾驶独角兽的造假行为深感失望

    你以为这是一个普通的自动驾驶视频吗? ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片 这个内容需要重新写成中文,而不改变原来的意思 没有一帧是“真的”。 图片 不同路况、各种天气,20多种情况都能模拟,效果以假乱真。 图片 世界模型再次…

    2025年12月2日 科技
    000
  • 实战部署:动态时序网络用于端到端检测和跟踪

    本文经自动驾驶之心公众号授权转载,转载请联系出处。 相信除了少数自研芯片的大厂,绝大多数自动驾驶公司都会使用英伟达NVIDIA芯片,那就离不开TensorRT. TensorRT是在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。我们利用Pytorch、TF或者其他框架训练好的模型,可以首…

    2025年12月2日 科技
    000
  • 努比亚推出自研星云大模型:编程性能国内排名第一

    7月23日消息,今天下午,努比亚举行努比亚ai+双旗舰新品发布会,推出自研的星云大模型。近年来,ai技术正值井喷式的爆发,努比亚定义了“al+”的产品战略和理念,联合ai大模型研发团队潜心钻研,重磅推出自研的星云大模型,提供了自然语言大模型、视觉大模型等一系列高度专业的ai大模型,模型能力行业遥遥领…

    2025年12月2日 行业动态
    000
  • 思维链如何释放语言模型的隐藏能力?最新理论研究揭示其背后奥秘

    大模型涌现中最神秘的现象之一是思维链提示(cot),尤其在解决数学推理和决策问题方面展现出惊人的效果。cot到底有多重要呢?它背后成功的机制是什么?本文中,北大的几位研究者证明了cot在实现大语言模型(llm)推理中是不可或缺的,并从理论和实验角度揭示了cot如何释放llm的巨大潜力。 最近的研究发…

    2025年12月2日 科技
    000
  • 自动驾驶中的交通规则识别问题

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 自动驾驶中的交通规则识别问题,需要具体代码示例 摘要:自动驾驶技术正在迅速发展,并且在未来有望实现商业化应用。然而,与此同时,自动驾驶车辆面临着一个重要的挑战,即交通规则的识别和遵守问题。本文将…

    2025年12月1日 科技
    000
  • 自动驾驶与轨迹预测看这一篇就够了!

    轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富,需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构(cnn&gnn&…

    2025年12月1日 科技
    000
  • 想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

    Sora 在 2024 年初的惊艳表现成为了新的标杆,激励着所有研究文生视频的人士争相追赶。每个研究者都怀着复现 Sora 成果的渴望,争分夺秒地努力着。 根据 OpenAI 披露的技术报告,Sora 的一个重要创新点是将视觉数据转换为 patch 的统一表示形式,并通过 Transformer 和…

    2025年12月1日 科技
    000

发表回复

登录后才能评论
关注微信