三篇论文解决「语义分割的优化和评估」难题！鲁汶/清华/牛津等联合提出全新方法

程序猿 • 2025年11月7日 12:18:53 • 用户投稿 • 阅读 0

常用的优化语义分割模型的损失函数包括soft jaccard损失、soft dice损失和soft tversky损失。然而，这些损失函数与软标签不兼容，因此无法支持一些重要的训练技术，比如标签平滑、知识蒸馏、半监督学习和多标注员等。这些训练技术对于提高语义分割模型的性能和鲁棒性非常重要，因此需要进一步研究和优化损失函数，以支持这些训练技术的应用。

小文AI论文

轻松解决论文写作难题，AI论文助您一键完成，仅需一杯咖啡时间，即可轻松问鼎学术高峰！

69 查看详情

另一方面，常用的语义分割评价指标包括mAcc和mIoU。然而，这些指标会对尺寸较大的物体有偏好，从而严重影响模型的安全性能评估。

为了解决这些问题，研究人员在鲁汶大学和清华首先提出了JDT损失。JDT损失是对原有损失函数的微调，它包括了Jaccard Metric损失、Dice Semimetric损失和Compatible Tversky损失。JDT损失在处理硬标签时与原有的损失函数相等，同时也能完全适用于软标签。这一改进使得模型的训练更加准确和稳定。

研究人员在四个重要场景中成功应用了JDT损失：标签平滑、知识蒸馏、半监督学习和多标注员。这些应用展示了JDT损失对于提高模型准确性和校准性的能力。

图片

论文链接：https://arxiv.org/pdf/2302.05666.pdf

图片

论文链接：https://arxiv.org/pdf/2303.16296.pdf

除此之外，研究人员还提出了细粒度的评价指标。这些细粒度的评价指标对大尺寸物体的偏见较小，能提供更丰富的统计信息，并能为模型和数据集审计提供有价值的见解。

并且，研究人员进行了一项广泛的基准研究，强调了不应基于单个指标进行评估的必要性，并发现了神经网络结构和JDT损失对优化细粒度指标的重要作用。

图片

论文链接：https://arxiv.org/pdf/2310.19252.pdf

代码链接：https://github.com/zifuwanggg/JDTLosses

现有的损失函数

由于Jaccard Index和Dice Score是定义在集合上的，所以并不可导。为了使它们可导，目前常见的做法有两种：一种是利用集合和相应向量的Lp模之间的关系，例如Soft Jaccard损失（SJL），Soft Dice损失（SDL）和Soft Tversky损失（STL）。

它们把集合的大小写成相应向量的L1模，把两个集合的交集写成两个相应向量的内积。另一种则是利用Jaccard Index的submodular性质，在集合函数上做Lovasz拓展，例如Lovasz-Softmax损失（LSL）。

图片

这些损失函数都假定神经网络的输出x是一个连续的向量，而标签y则是一个离散的二值向量。如果标签为软标签，即y不再是一个离散的二值向量，而是一个连续向量时，这些损失函数就不再兼容。

以SJL为例，考虑一个简单的单像素情况：

图片

可以发现，对于任意的y > 0，SJL都将在x = 1时最小化，而在x = 0时最大化。因为一个损失函数应该在x = y时最小化，所以这显然是不合理的。

与软标签兼容的损失函数

为了使原有的损失函数与软标签兼容，需要在计算两个集合的交集和并集时，引入两个集合的对称差：

图片

注意两个集合的对称差可以写成两个相应向量的差的L1模：

图片

把以上综合起来，我们提出了JDT损失。它们分别是SJL的变体Jaccard Metric损失（JML），SDL的变体Dice Semimetric 损失（DML）以及STL的变体Compatible Tversky损失（CTL）。

图片

JDT损失的性质

我们证明了JDT损失有着以下的一些性质。

性质1：JML是一个metric，DML是一个semimetric。

性质2：当y为硬标签时，JML与SJL等价，DML与SDL等价，CTL与STL等价。

性质3：当y为软标签时，JML，DML，CTL都与软标签兼容，即x = y ó f(x，y) = 0。

由于性质1，它们也因此被称为Jaccard Metric损失和Dice Semimetric损失。性质2说明在仅用硬标签进行训练的一般场景下，JDT损失可以直接用来替代现有的损失函数，而不会引起任何的改变。

如何使用JDT损失

我们进行了大量的实验，总结出了使用JDT损失的一些注意事项。

注意1：根据评价指标选择相应的损失函数。如果评价指标是Jaccard Index，那么应该选择JML；如果评价指标是Dice Score，那么应该选择DML；如果想给予假阳性和假阴性不同的权重，那么应该选择CTL。其次，在优化细粒度的评价指标时，JDT损失也应做相应的更改。

注意2：结合JDT损失和像素级的损失函数（例如Cross Entropy损失，Focal损失）。本文发现0.25CE + 0.75JDT一般是一个不错的选择。

注意3：最好采用一个较短的epoch来训练。加上JDT损失后，一般只需要Cross Entropy损失训练时一半的epoch。

注意4：在多个GPU上进行分布式训练时，如果GPU之间没有额外的通信，JDT损失会错误的优化细粒度的评价指标，从而导致其在传统的mIoU上效果变差。

注意5：在极端的类别不平衡的数据集上进行训练时，需注意JDL损失是在每个类别上分别求损失再取平均，这可能会使训练变得不稳定。

实验结果

实验证明，与Cross Entropy损失的基准相比，在用硬标签训练时，加上JDT损失可以有效提高模型的准确性。引入软标签后，可以进一步提高模型的准确性和校准性。

图片

只需在训练时加入JDT损失项，本文取得了语义分割上的知识蒸馏，半监督学习和多标注员的SOTA。

图片

现有的评价指标

语义分割是一个像素级别的分类任务，因此可以计算每个像素的准确率：overall pixel-wise accuracy（Acc）。但因为Acc会偏向于多数类，所以PASCAL VOC 2007采用了分别计算每个类别的像素准确率再取平均的评价指标：mean pixel-wise accuracy（mAcc）。

但由于mAcc不会考虑假阳性，从PASCAL VOC 2008之后，就一直采用平均交并比（per-dataset mIoU, mIoUD）来作为评价指标。PASCAL VOC是最早的引入了语义分割任务的数据集，它使用的评价指标也因此被之后的各个数据集所广泛采用。

具体来说，IoU可以写成：

图片

为了计算mIoUD，我们首先需要对每一个类别c统计其在整个数据集上所有I张照片的true positive（真阳性，TP），false positive（假阳性，FP）和false negative（假阴性，FN）：

图片

有了每个类别的数值之后，我们按类别取平均，从而消除对多数类的偏好：

图片

因为mIoUD把整个数据集上所有像素的TP，FP和FN合计在一起，它会不可避免的偏向于那些大尺寸的物体。

在一些对安全要求较高的应用场景中，例如自动驾驶和医疗图像，经常会存在一些尺寸小但是不可忽略的物体。

如下图所示，不同照片上的汽车的大小有着明显的不同。因此，mIoUD对大尺寸物体的偏好会严重的影响其对模型安全性能的评估。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

细粒度的评价指标

为了解决mIoUD的问题，我们提出细粒度的评价指标。这些指标在每张照片上分别计算IoU，从而能有效的降低对大尺寸物体的偏好。

mIoUI

对每一个类别c，我们在每一张照片i上分别计算一个IoU：

图片

接着，对每一张照片i，我们把这张照片上出现过的所有类别进行平均：

图片

最后，我们把所有照片的数值再进行平均：

图片

mIoUC

类似的，在计算出每个类别c在每一张照片i上的IoU之后，我们可以把每一个类别c出现过的所有照片进行平均：

最后，把所有类别的数值再进行平均：

由于不是所有的类别都会出现在所有的照片上，所以对于一些类别和照片的组合，会出现NULL值，如下图所示。计算mIoUI时先对类别取平均再对照片取平均，而计算mIoUC时先对照片取平均再对类别取平均。

这样的结果是mIoUI可能会偏向那些出现得很频繁的类别（例如下图的C1），而这一般是不好的。但另一方面，在计算mIoUI时，因为每张照片都有一个IoU数值，这能帮助我们对模型和数据集进行一些审计和分析。

图片

最差情况的评价指标

对于一些很注重安全的应用场景，我们很多时候更关心的是最差情况的分割质量，而细粒度指标的一个好处就是能计算相应的最差情况指标。我们以mIoUC为例，类似的方法也可以计算mIoUI相应的最差情况指标。

对于每一个类别c，我们首先把其出现过的所有照片（假设有Ic个这样的照片）的IoU数值进行升序排序。接着，我们设q为一个很小的数字，例如1或者5。然后，我们仅用排序好的前Ic * q%张照片来计算最后的数值：

图片

有了每个类c的数值之后，我们可以像之前那样按类别取平均，从而得到mIoUC的最差情况指标。

实验结果

我们在12个数据集上训练了15个模型，发现了如下的一些现象。

现象1：没有一个模型在所有的评价指标上都能取得最好的效果。每个评价指标都有着不同的侧重点，因此我们需要同时考虑多个评价指标来进行综合的评估。

现象2：一些数据集上存在部分照片使得几乎所有的模型都取得一个很低的IoU数值。这一方面是因为这些照片本身就很有挑战性，例如一些很小的物体和强烈的明暗对比，另一方面也是因为这些照片的标签存在问题。因此，细粒度的评价指标能帮助我们进行模型审计（发现模型会犯错的场景）和数据集审计（发现错误的标签）。

现象3：神经网络的结构对优化细粒度的评价指标有着至关重要的作用。一方面，由ASPP（被DeepLabV3和DeepLabV3+采用）等结构所带来的感受野的提升能帮助模型识别出大尺寸的物体，从而能有效提高mIoUD的数值；另一方面，encoder和decoder之间的长连接（被UNet和DeepLabV3+采用）能使模型识别出小尺寸的物体，从而提高细粒度评价指标的数值。

现象4：最差情况指标的数值远远低于相应的平均指标的数值。下表展示了DeepLabV3-ResNet101在多个数据集上的mIoUC和相应的最差情况指标的数值。一个值得以后考虑的问题是，我们应该如何设计神经网络结构和优化方法来提高模型在最差情况指标下的表现？

图片

现象5：损失函数对优化细粒度的评价指标有着至关重要的作用。与Cross Entropy损失的基准相比，如下表的（0，0，0）所示，当评价指标变得细粒度，使用相应的损失函数能极大的提升模型在细粒度评价指标上的性能。例如，在ADE20K上，JML和Cross Entropy损失的mIoUC的差别会大于7%。

图片

未来工作

我们只考虑了JDT损失作为语义分割上的损失函数，但它们也可以应用在其他的任务上，例如传统的分类任务。

其次，JDT损失只被用在标签空间中，但我们认为它们能被用于最小化任意两个向量在特征空间上的距离，例如用来替代Lp模和cosine距离。

参考资料：

https://arxiv.org/pdf/2302.05666.pdf

https://arxiv.org/pdf/2303.16296.pdf

https://arxiv.org/pdf/2310.19252.pdf

以上就是三篇论文解决「语义分割的优化和评估」难题！鲁汶/清华/牛津等联合提出全新方法的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/427496.html

deepl 指标损失函数语义分割

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

智能家居控制系统有哪些热门应用？

上一篇 2025年11月7日 12:18:53

摄像机怎么拍摄黑白照片_摄像机黑白模式设置与艺术效果拍摄方法

下一篇 2025年11月7日 12:18:55

好文分享

如何实现C++中的语义分割和图像识别？

如何实现C++中的语义分割和图像识别？摘要：本文旨在介绍如何使用C++实现图像语义分割和图像识别的功能。首先，介绍了语义分割的基本概念和原理，并提供了一个基于深度学习的示例代码。然后，介绍了图像识别的基本概念和原理，并提供了一个基于OpenCV的示例代码。最后，总结了本文的内容，并讨论了未来的发展…

程序猿
2025年12月17日
0000
用户投稿

什么是“共振”信号？当多个指标或周期同时发出信号时，胜率会提高多少？

正规靠谱的加密货币交易平台推荐：欧易OKX： Binance币安：火币Huobi： Gateio芝麻开门： “共振”信号指多个独立指标或周期同时发出相同方向的交易信号，以此提高决策可靠性。一、多指标共振的原理与胜率提升单一技术指标存在局限性，容易产生假信号。通过结合不同类别的指标（如趋势、动…

程序猿
2025年12月9日
0000
ZeroGPT能检测翻译内容吗_ZeroGPT对翻译AI文本的识别效果

ZeroGPT能检测AI翻译文本因其保留AI语言特征，翻译无法完全消除句法和语义异常，需通过人工润色、多轮改写和母语审校降低检测风险。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 如果您使用AI工具翻译文本，可能会担心ZeroGPT是否能…

程序猿
2025年12月2日 • 用户投稿
0000
微软6页论文爆火：三进制LLM，真香！

这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的LLM，都将是1.58 bit的。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 具体而言，这项研究提出的方法叫做BitNet b1.58，可以说是从大语言模型“根儿”上的…

程序猿
2025年12月1日 • 用户投稿
0000
微软免费课程，吴恩达亲自授课，为顶级生成式AI提供必备课程

你已经准备好了吗？准备迎接新一轮的学习之旅在当今盛行生成式 AI 的时代，你是否也为这项技术所倾倒，比如说只需输入简单的文字，短暂的瞬间，一个精美的图片或是流畅的文字就会呈现在你眼前许多人都认为生成式人工智能是深不可测的，没有系统的课程讲解就难以理解其精髓。如果有科技公司或知名学者来协助完成这项…

程序猿
2025年12月1日 • 用户投稿
0000
为深度学习选择最好的GPU

在进行机器学习项目时，特别是在处理深度学习和神经网络时，最好使用GPU而不是CPU来处理，因为在神经网络方面，即使是一个非常基本的GPU也会胜过CPU。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 但是你应该买哪种GPU呢?本文将总结需要…

程序猿
2025年11月27日 • 用户投稿
1000
基于飞桨的盲道引导系统

本项目针对中国庞大视障群体出行难问题，利用深度学习技术，以微信小程序为前端，服务器部署训练好的模型。盲人通过手机摄像头实时监测路面，服务器经图像语义分割判断路况，语音引导避障，保障盲道行走安全。项目采用DeepLabv3+算法，自制数据集训练，解决现有产品成本高、使用复杂等问题。 ☞☞☞AI 智能聊…

程序猿
2025年11月25日 • 用户投稿
3000
Sora多语言提示怎么支持_Sora多语言文本输入视频生成方法

首先将非英语提示通过DeepL或Google Translate翻译成英文，并检查语义准确性，随后输入Sora；或在提示前添加语言标识如“[Chinese prompt]”以保留原始表达；同时可构建中英视觉关键词映射表提升生成一致性。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量…

程序猿
2025年11月24日 • 用户投稿
0000
【一键下载安装】Paddle/环境 & Paddle套件全家桶【多平台】

这个工具能一键安装Paddle框架及cuda、cudnn环境，还能一键下载安装所需Paddle开源库套件，可按实际选http/ssh、github/gitee。下载地址见指定数据集或github项目。Linux下运行source main.sh（用bash则安装后需执行source ~/.bashr…

程序猿
2025年11月13日 • 用户投稿
1000
【官方】Paddle2.1实现视频理解优化模型 — PP-TSN

随着互联网上视频的规模日益庞大，人们急切需要研究视频相关算法帮助人们更加容易地找到感兴趣内容的视频。而视频分类算法能够实现自动分析视频所包含的语义信息、理解其内容，对视频进行自动标注、分类和描述，达到与人媲美的准确率。视频分类是继图像分类问题后下一个急需解决的关键任务。 ☞☞☞AI 智能聊天, 问答…

程序猿
2025年11月12日 • 用户投稿
1000
PaddleNLP2.0：BERT模型在文本分类任务上的应用

什么是BERT？ bert的全称为bidirectional encoder representation from transformers，是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked la…

程序猿
2025年11月12日 • 用户投稿
1000
用户投稿

【PaddleHub模型贡献】一行代码实现水表的数字表盘分割

本文介绍将水表数字表盘分割模型贡献到PaddleHub的方法。先安装必要库，复现模型：准备数据集，配置GPU，定义图像预处理流程和数据集，用DeepLabv3p训练模型并导出。接着转换模型为PaddleHub模型，补充代码实现旋转剪裁等功能，最后测试安装与调用，实现水表数字表盘分割。 ☞☞☞AI 智…

程序猿
2025年11月11日
0000
基于BERT模型的机器阅读理解

机器阅读理解是自然语言处理中的一个重要的任务，最常见的有单篇章的抽取式阅读理解。机器阅读理解的应用范围很广，比如客服机器人，通过文字或者语音与用户进行沟通交流，然后获取相关的信息并提供准确可靠的回答。搜索引擎中精确返回用户所给定问题的答案。在医疗领域中自动阅读病人的资料来找到相应的病因。 ☞☞☞AI…

程序猿
2025年11月11日 • 用户投稿
1000
基于百度自研模型ERNIE进行事件抽取任务

信息抽取旨在从非结构化自然语言文本中提取结构化知识，如实体、关系、事件等。事件抽取是信息抽取的一种，其目标是对于给定的自然语言句子，根据预先指定的事件类型和论元角色，识别句子中所有目标事件类型的事件，并根据相应的论元角色集合抽取事件所对应的论元。其中目标事件类型 (event_type) 和论元角色…

程序猿
2025年11月11日 • 用户投稿
0000
ai翻译工具哪些好用？好用的ai翻译软件前十名盘点

随着AI翻译技术的发展，市场上涌现出众多高性能的翻译软件。本文将介绍前十款好用的AI翻译软件，帮助用户轻松跨越语言障碍。这些软件提供高准确性和流畅的译文，涵盖广泛的语言，并提供高级功能，例如定制化翻译、远程协作和机器翻译集成。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 D…

程序猿
2025年11月10日 • 用户投稿
1000
深入探讨自动驾驶中的2D和3D视觉感知算法

环境感知是自动驾驶的第一环，是车辆和环境交互的纽带。一个自动驾驶系统整体表现的好坏，很大程度上都取决于感知系统的好坏。目前，环境感知技术有两大主流技术路线： ①以视觉为主导的多传感器融合方案，典型代表是特斯拉； ②以激光雷达为主导，其他传感器为辅助的技术方案，典型代表如谷歌、百度等。我们将围绕着环…

程序猿
2025年11月9日 • 用户投稿
2000
【第六期论文复现赛-语义分割】DDRNet

本文介绍DDRNet语义分割模型，其属双路径结构，含高低分辨率两个分支，分别保存细节与提取上下文信息，通过Bilateral fusion模块融合特征，引入DAPPM模块和辅助损失。复现的DDRNet – 23在Cityscapes验证集mIoU达79.85%，优于目标值，已被paddl…

程序猿
2025年11月9日 • 用户投稿
0000
MLOps角色是什么

你有兴趣成为一名 mlops 工程师吗？今天详细了解 mlops 工程师角色。所以已经建立了一个机器学习模型。它在验证数据集上达到了预期的性能。很高兴能够应用数据科学和机器学习技能来构建此模型。但是，意识到该模型在 Jupyter notebook 中在本地计算机上运行良好（目前）并不是很有帮助。…

程序猿
2025年11月9日 • 用户投稿
0000
自动驾驶视觉感知算法技术综述

环境感知是自动驾驶的第一环，是车辆和环境交互的纽带。一个自动驾驶系统整体表现的好坏，很大程度上都取决于感知系统的好坏。目前，环境感知技术有两大主流技术路线： ①以视觉为主导的多传感器融合方案，典型代表是特斯拉； ②以激光雷达为主导，其他传感器为辅助的技术方案，典型代表如谷歌、百度等。我们将围绕着…

程序猿
2025年11月9日 • 用户投稿
1000
陶哲轩宣布主持白宫生成式AI工作组，李飞飞、Hassabis发表演讲

近来，美国总统科技顾问委员会（PCAST）成立了一个生成式人工智能工作组。值得一提的是，数学天才陶哲轩在这个工作组中担任了co-leader的角色。陶哲轩在自己的博客发文称，我和Laura Greene共同主持这个生成式人工智能工作组。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费…

程序猿
2025年11月9日 • 用户投稿
2000