ICLR’24无图新思路！LaneSegNet：基于车道分段感知的地图学习

程序猿 • 2025年11月7日 17:22:54 • 科技 • 阅读 0

写在前面&笔者的个人理解

地图作为自动驾驶系统下游应用的关键信息，通常以车道或中心线表示。然而，现有的地图学习文献主要集中在检测基于几何的车道或感知中心线的拓扑关系。这两种方法都忽略了车道线与中心线的内在关系，即车道线绑定中心线。虽然在一个模型中简单地预测两种类型的车道在学习目标中是互斥的，但本文提出将lane segment作为一种无缝结合几何和拓扑信息的新表示，因此提出了lanesegnet。这是第一个生成lane segment以获得道路结构完整表示的端到端建图网络。lanesegnet有两个关键的修改，一个是车道注意力模块，用于捕捉长距离特征空间内的关键区域细节。另一个是参考点的相同初始化策略，它增强了车道注意力的位置先验的学习。在openlane-v2数据集上，lanesegnet在三项任务上都比以前的同类产品有显著的优势，即地图元素检测（+4.8 map）、车道中心线感知（+6.9 detl）和新定义的lane segment感知（+5.6 map）。此外，它还获得了14.7fps的实时推理速度。

开源链接：https://github.com/OpenDriveLab/LaneSegNet

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

总结来说，本文的主要贡献如下：

本文引入了全新的lane segment感知作为一种新的地图学习公式。它包含了几何和拓扑要素。我们希望它能给领域带来新的见解。本文提出了LaneSegNet，这是一种为lane segment感知而提出的端到端网络。已经提出了两种新的修改，包括具有heads-to-regions机制的车道注意力模块，用于捕获长距离注意力，以及用于参考点的相同初始化策略，以增强车道注意力的位置先验学习。

详解LaneSegNet

车道分段感知任务描述

Lane Segment的实例包含道路的几何和语义方面。至于几何，它可以表示为由矢量化的中心线及其相应的车道边界组成的线段：。每条线都被定义为3D空间中个点的有序集合。此外，几何体也可以被描述为定义该车道内的可驾驶区域的闭合多边形。

在语义方面，它包括Lane Segment类别C（例如，Lane Segment、行人交叉）和左/右车道边界的线型（例如，不可见、实心、虚线）：{}。这些细节为自动驾驶汽车提供了关于减速要求和变道可行性的重要见解。

此外，拓扑信息在路径规划中起着至关重要的作用。为了表示这一信息，为Lane Segment构建了一个车道图，表示为G=（V，E）。每个Lane Segment都是该图中的一个节点，由集合V表示，而集合E中的边描述了Lane Segment之间的连通性。我们使用邻接矩阵来存储该车道图，其中只有当第j个Lane Segment跟随第i个Lane Segment时，矩阵元素（i，j）才设置为1；否则，它保持为0。

LaneSegNet框架

LaneSegNet的整体框架如图2所示。LaneSegNet将环视图像作为输入，以感知特定BEV范围内的Lane Segment。在本节中，我们首先简要介绍用于生成BEV特征的LaneSeg编码器。然后，我们介绍了车道分段解码器和车道注意力。最后，我们提出了车道分段预测器以及训练损失。

LaneSeg Encoder

编码器将环视图像转换为BEV特征，用于Lane Segment提取。我们利用标准的ResNet-50主干从原始图像中导出特征图。随后使用BEVFormer的PV到BEV编码器模块被用于视图转换。

LaneSeg Decoder

基于Transformer的检测方法利用解码器从BEV特征中收集特征，并通过多层更新解码器查询。每个解码器层利用自注意力、交叉注意力机制和前馈网络来更新查询。此外，还采用了可学习的位置查询。更新后的查询随后被输出并被馈送到下一阶段。

由于复杂且细长的地图几何形状，收集长距离BEV特征对于在线地图任务至关重要。先前的工作利用分层（实例点）解码器查询和可变形注意力来提取每个点查询的局部特征。虽然这种方法避免了捕获长距离信息，但由于查询数量的增加，随之而来的是高昂的计算成本。

Lane Segment作为构建场景图的车道实例表示，在实例层面上具有优越的特性。我们的目标不是使用多点查询，而是采用单个实例查询来表示Lane Segment。因此，核心挑战在于如何使用单个实例查询来交叉关注全局BEV特性。

Lane Attention：在目标检测中，可变形注意力利用目标的位置先验，只关注目标参考点附近的一小部分注意力值作为预滤波器，大大加速了收敛。在层迭代期间，参考点被放置在预测目标的中心，以细化注意力值的采样位置，注意力值通过可学习的采样偏移分散在参考点周围。采样偏移的有意初始化包含了二维目标之前的几何体。通过这样做，多分支机制可以很好地捕捉每个方向的特征，如图3a所示。

在地图学习的背景下，李等人使用朴素的可变形注意力来预测中心线。然而如图3b所示，由于参考点的朴素放置，它可能无法获得lone range注意力。此外，由于目标的细长形状和复杂的视觉线索（例如，精确预测实线和虚线之间的断点），这一过程需要为我们的任务进行额外的自适应设计。考虑到所有这些特征，网络有必要拥有不仅关注长范围上下文信息，而且准确提取局部细节的能力。因此，建议将采样位置分布在大的区域中，以有效地感知长距离信息。另一方面，局部细节应易于区分，以识别关键点。值得注意的是，虽然在单个注意力头内的value特征之间是竞争关系，但不同头部之间的value特征可以在Attention过程中保留。因此，明确利用这一属性来促进对特定区域局部特征的关注是有希望的。

为此，本文提出建立一个heads-to-regions机制。我们首先在Lane Segment区域内均匀分布多个参考点。然后围绕局部区域中的每个参考点对采样位置进行初始化。为了保留复杂的局部细节，我们使用了多分支机制，其中每个头都关注局部区域内的一组特定采样位置，如图3c所示。

现在提供车道注意力模块的数学描述。给定BEV特征，第i个Lane Segment查询特征qi和一组参考点pi作为输入，车道注意力计算如下：

有道小P

有道小P，新一代AI全科学习助手，在学习中遇到任何问题都可以问我。

64 查看详情

参考点的相同初始化：参考点的位置是车道注意力模块功能的决定因素。为了使每个实例查询的关注区域与其实际几何结构和位置对齐，基于前一层的Lane Segment预测来分布每个实例查询中的参考点p，如图3c所示。并迭代细化预测。

先前的工作认为，提供给第一层的参考点应该用从位置查询嵌入推导出的可学习先验来单独初始化。然而，由于位置查询与输入图像无关，因此这种初始化方法可能会反过来限制模型记忆几何先验和位置先验的能力，并且错误生成的初始化位置也会对训练构成障碍。

因此，对于Lane Segment解码器的第一层，我们提出了相同的初始化策略。在第一层中，每个头部采用由位置查询生成的相同参考点。与传统方法中的参考点分布式初始化（即为每个查询初始化多个参考点）相比，相同的初始化将通过过滤掉复杂几何形状的干扰，使位置先验的学习更加稳定。需要注意的是，相同的初始化似乎是反直觉的，但被观察到是有效的。

LaneSeg Predictor

我们在多个预测分支中使用MLP，从Lane Segment查询中生成最终预测的Lane Segment，同时考虑几何、语义和拓扑方面。

对于几何，我们首先设计了一个中心线回归分支来回归中心线在三维坐标中的矢量化点位置。输出的格式为。由于左右车道边界的对称性，我们引入了一个偏移分支来预测偏移，其格式为。因此，可以使用和来计算左右车道边界坐标。

假设车道分段可以概念化为可驾驶区域，我们将实例分段分支集成到预测器中。在语义方面，三个分类分支并行预测C的分类得分，和的得分。拓扑分支将更新的查询特征作为输入，并使用MLP输出车道图G的加权相邻矩阵。

训练损失

LaneSegNet采用类似DETR的范式，使用匈牙利算法有效地计算预测和地面实况之间的一对一最优分配。然后根据分配结果计算训练损失。损失函数由四个部分组成：几何损失、分类损失、laneline型分类损失和拓扑损失。

几何损失监督每个预测Lane Segment的几何结构。根据二分匹配结果，为每个预测的矢量化Lane Segment分配一个GT Lane Segment。矢量化几何损失定义为分配的Lane Segment对之间计算的曼哈顿距离。

实验结果

主要实验结构

Lane Segment感知：在表1中，我们在新引入的Lane Segment感知基准上，将LaneSegNet与几种最先进的方法MapTR、MapTRv2和TopoNet进行了比较。用我们的Lane Segment标签重新训练他们的模型。LaneSegNet在mAP上的性能优于其他方法高达9.6%，平均距离误差相对降低了12.5%。LaneSegNet-mini也超过了以前的方法，FPS更高，为16.2。

定性结果如图4所示：

地图元素检测：为了与地图元素检测方法进行更公平的比较，我们将LaneSegNet的预测Lane Segment分解为成对的车道，然后使用地图元素检测指标将其与最先进的方法进行比较。我们将拆下的车道线和人行横道标签输入到几种最先进的方法中进行再训练。实验结果如表2所示，表明LaneSegNet在地图元素检测任务方面始终优于其他方法。在公平的比较下，LaneSegNet可以在额外的监督下更好地恢复道路几何形状。这表明Lane Segment学习表示善于捕捉道路几何信息。

中心线感知：我们还在表3中将LaneSegNet与最先进的中心线感知方法进行了比较。为了保持一致性，还从Lane Segment中提取中心线以进行重新训练。可以得出结论，LaneSegNet在车道图感知任务中的性能明显高于其他方法。通过额外的地理监控，LaneSegNet还展示了卓越的拓扑推理能力。证明了推理能力与较强的定位和检测能力密切相关。

消融实验

Lane Segment公式：在表4中，我们提供消融来验证我们提出的Lane Segment学习公式的设计优点和训练效率。与前两行的单独训练模型相比，中心线和地图元素的联合训练对两个主要指标带来了全面的平均1.3的改进，如第4行所示，证明了多任务训练的可行性。然而，通过添加额外的类别在单个分支中训练中心线和地图元素的普通方法会导致明显的性能下降。与上述朴素单分支方法相比，我们使用Lane Segment标签训练的模型获得了显著的性能增强（对于第3行和第5行之间的比较，OLS上的+7.2和mAP上的+4.4），这验证了我们的地图学习公式中各种道路信息之间的正交互作用。我们的模型甚至超过了多分支方法，特别是在中心线感知方面（OLS为+4.8）。这表明几何可以在我们的地图学习公式中指导拓扑推理，其中多分支模型仅略微优于仅CL模型（第1行和第4行之间+0.6 OLS）。至于的小幅下降，它来自于我们预测结果的重塑过程，是由线型分类的错误引起的，

车道注意力模块：我们展示的注意力模块消融如表5所示。为了便于进行公平的比较，我们用替代注意力设计代替了框架中的车道注意力模块。在我们精心设计的情况下，具有车道注意力的LaneSegNet显著优于这些方法，显示出显著的改进（与第1行相比，mAP提高了3.9，TOPll提高了1.2）。此外，与分层查询设计相比，由于查询数量的减少，解码器延迟可以进一步减少（从23.45ms减少到20.96ms）。

结论

本文提出了Lane Segment感知作为一种新的地图学习公式，并提出了LaneSegNet，一种专门针对这一问题的端到端网络。除了网络之外，还提出了两个创新的增强功能，包括车道注意力模块，该模块采用头到区域机制来捕捉长距离注意力，以及参考点的相同初始化策略，以增强车道注意力的位置先验学习。在OpenLane-V2数据集上的实验结果证明了我们设计的有效性。

限制和未来工作。由于计算限制，我们没有将所提出的LaneSegNet扩展到更多的额外主干。Lane Segment感知和LaneSegNet的制定可能有利于下游任务，值得未来探索。

以上就是ICLR’24无图新思路！LaneSegNet：基于车道分段感知的地图学习的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/438261.html

模型网络

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

清华系初创公司发布全球首个4D骨骼动画框架，实现一键将实景转化为动画，并且能够生成个性化角色

上一篇 2025年11月7日 17:21:49

AI成达沃斯论坛讨论热点各行各业更关注结果准确性

下一篇 2025年11月7日 17:23:28

好文分享

使用HTML、CSS和jQuery实现带计数器的点赞按钮

本文详细介绍了如何使用HTML、CSS和jQuery构建一个功能完善的带计数器的点赞按钮。教程涵盖了从前端界面构建、JavaScript交互逻辑到模拟后端数据存储与更新的全过程，旨在帮助开发者实现用户友好的互动功能，并为实际的服务器端集成提供指导。 1. 功能概述点赞按钮是现代网页应用中常见的互动…

程序猿
2025年12月22日
0000
html的盒模型详解

这次给大家带来html的盒模型详解，使用html盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素： –生成该盒的元素是否设置了’width’或&#82…

程序猿
好文分享 2025年12月21日
0000
好文分享

解决JavaScript动态加载图片不显示问题：DOM操作与常见错误解析

本文旨在解决通过JavaScript动态加载图片时，图片无法正常显示的问题。我们将深入探讨DOM操作中`querySelector`选择器使用的常见错误，特别是针对ID选择器遗漏`#`符号的情况。通过分析问题代码并提供修正后的实现，文章还将介绍如何正确地清除输入字段、处理图片加载错误以及优化用户体验…

程序猿
2025年12月21日
0000
好文分享

Node.js连接MongoDB：深入理解Promise处理机制

当mongodb服务器显示“waiting for connections”，但node.js应用无响应时，通常是因为mongodb node.js驱动的`connect`方法返回promise。本文将详细讲解如何使用`.then()`或`async/await`正确处理异步连接，确保应用能成功连接…

程序猿
2025年12月21日
0000
好文分享

Next.js与Hygraph数据集成：解决map错误及API认证指南

本文旨在解决Next.js应用中从Hygraph拉取数据时遇到的Cannot read properties of undefined (reading ‘map’)错误。核心问题在于Hygraph API请求缺少必要的认证令牌。教程将详细指导如何配置Hygraph API访…

程序猿
2025年12月20日
0000
好文分享

c++怎么实现一个简单的HTTP服务器_c++HTTP服务器的实现思路与代码示例

答案：使用C++通过socket编程实现HTTP服务器，依次创建套接字、绑定端口、监听连接、接收请求并解析路径，返回对应响应内容。代码基于系统API完成TCP通信，主线程循环接受客户端连接，子线程处理请求并发送HTML响应，支持简单路由如根路径和/about页面，最后关闭连接。该示例仅依赖标准库与系…

程序猿
2025年12月19日
2000
好文分享

C语言网络编程：企业级应用开发实战

网络编程在企业级应用开发中的重要性，c 语言因其效率和稳定性被广泛应用于此领域。socket 是网络编程中进程间通信的基础机制。berkeley 套接字 api 在 c 语言中用于创建和管理 socket。客户端-服务器模型是网络编程的常见模式。实战案例演示了如何构建一个简单的 http 服务器来处…

程序猿
2025年12月18日
0000
好文分享

C++框架提供的网络和通信特性

c++++ 框架提供以下网络特性：tcp/udp 套接字支持http 服务器和客户端dns 解析ssl/tls 支持还提供以下通信特性：消息传递远程过程调用json 和 xml 解析队列和主题 C++ 框架中的网络和通信特性引言网络和通信是现代软件应用程序的重要组成部分。C++ 框架通过提供一系…

程序猿
2025年12月18日
0000
好文分享

Go语言实现TCP SYN端口扫描：系统调用与跨平台考量

本文深入探讨如何使用go语言实现tcp syn端口扫描。重点介绍通过go的`syscall`包构建并发送自定义tcp头部的技术细节，同时强调了`syscall`在不同操作系统间的可移植性问题及其解决方案，旨在提供一个专业且实用的go语言网络扫描实现指南。 1. TCP SYN 端口扫描原理概述 TC…

程序猿
2025年12月16日
0000
好文分享

Golang函数作为参数传递与返回技巧

Golang中函数可作为参数和返回值传递，通过函数类型实现高阶函数、回调、策略模式等灵活设计。在Golang中，函数确实可以像普通变量一样被传递和返回，这为我们构建高度灵活、可复用的代码提供了强大的工具。它本质上利用了函数作为“一等公民”的特性，让我们可以设计出更抽象、更具适应性的程序结构，比如高…

程序猿
2025年12月15日
0000
GolangGo Modules常见报错及修复策略

答案：Go Modules常见问题包括依赖版本冲突、网络访问问题和本地模块调试困难。依赖冲突可通过go mod graph分析，用replace或go get指定版本解决；网络问题需配置GOPROXY、GONOPROXY和GONOSUMDB；本地开发可用replace指向本地路径，调试后及时移除。 …

程序猿
好文分享 2025年12月15日
0000
好文分享

解决TensorFlow数据集加载网络问题：本地化.npz数据加载教程

本教程旨在解决tensorflow用户在使用`tf.keras.datasets`加载数据集时遇到的网络连接问题。当默认的下载机制因网络限制而失败时，本文将详细指导如何手动下载`.npz`格式的数据集，并利用numpy库将其高效、准确地加载到tensorflow项目中，确保训练数据的本地可用性，从而…

程序猿
2025年12月14日
0000
好文分享

Python开发注意事项：避免常见的网络通信问题

Python作为一种灵活且易于学习的编程语言，已经成为了许多开发人员的首选。在进行Python开发时，网络通信是一个非常重要的方面。本文将介绍一些常见的网络通信问题，并提供一些建议以帮助开发人员避免这些问题。首先，一个常见的问题是网络连接超时。在进行网络通信时，我们通常需要与其他服务器进行连接。然…

程序猿
2025年12月13日
0000
好文分享

PHP如何调用第三方API PHP集成外部服务的实践方法

php调用第三方api的核心是发起http请求并处理响应，主要方法有三种：1. 使用file_get_contents()适合简单get请求；2. 使用curl可处理post、自定义header、超时、认证等复杂场景；3. 使用guzzle库更优雅，支持异步、中间件和重试机制。为确保安全，必须使用h…

程序猿
2025年12月11日
0000
好文分享

php如何与LDAP目录进行交互 php LDAP扩展连接与操作指南

PHP与LDAP交互需启用LDAP扩展，通过ldap_connect建立连接并推荐使用SSL/TLS加密，ldap_bind进行认证（常用简单绑定配合TLS），ldap_search执行搜索时应优化过滤器、base_dn和属性选择以提升效率，ldap_get_entries处理结果需理解其多维数组结…

程序猿
2025年12月10日
1000
硬件教程

vivo Pad3 Pro 正式登场跑分离谱还有蓝心大模型

中关村在线消息：vivo 旗舰新品发布会正在进行中，本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸，搭载天玑 9300 处理器，跑分超过 210 万，也是行业首个突破 200 万的平板电脑。在游戏测试中，在 90 帧 +hdr 高清画质下，帧率稳定一条直线，性能十分…

程序猿
2025年12月5日
0000
谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的 tokenizer 所致，而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude 3.5 也无法幸免。…

程序猿
2025年12月5日 • 硬件教程
0000
显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

上海交大、上海ai lab和港中文大学的研究人员推出visual-rft（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（lvlm）性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调（rft）范式相结合，成功地将这一方法…

程序猿
2025年12月3日 • 硬件教程
0000
AI 越聪明越不听话！新研究：最强推理模型指令遵循率仅 50%

如果面前有两个 ai 助手：一个很聪明但经常不守规矩，另一个很听话但不太聪明，你会怎么选？最近，上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

程序猿
2025年12月3日 • 硬件教程
2000
《梦幻西游》全新赛事祥瑞即将来袭，剪影图曝光

《梦幻西游》电脑版全新赛事祥瑞曝光，11月将会和广大玩家正式亮相！你们猜猜这只祥瑞是以什么为原型做的设计，以及和梦幻接下来的什么活动有关无涯·问知无涯·问知，是一款基于星环大模型底座，结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情以上就是《梦幻…

程序猿
2025年12月2日 • 行业动态
0000