ViT多标签分类：损失函数与评估策略改造指南

程序猿 • 2025年11月10日 15:54:20 • 后端开发 • 阅读 1

本文旨在详细阐述如何将vision transformer（vit）模型从单标签多分类任务转换到多标签分类任务。核心内容聚焦于损失函数的替换，从`crossentropyloss`转向更适合多标签的`bcewithlogitsloss`，并深入探讨多标签分类任务下模型输出层、标签格式以及评估指标的选择与实现，提供实用的代码示例和注意事项，以确保模型能够准确有效地处理多标签数据。

在计算机视觉领域，许多实际应用场景需要模型识别图像中存在的多个独立特征或类别，而非仅仅识别一个主要类别。例如，一张图片可能同时包含“猫”、“狗”和“草地”等多个标签。这种任务被称为多标签分类（Multi-label Classification），它与传统的单标签多分类（Single-label Multi-class Classification）有着本质的区别。对于Vision Transformer (ViT) 模型而言，从单标签任务迁移到多标签任务，主要涉及损失函数、模型输出层以及评估策略的调整。

1. 损失函数的转换

传统的单标签多分类任务通常使用torch.nn.CrossEntropyLoss作为损失函数。该损失函数内部集成了LogSoftmax和NLLLoss，它期望模型的输出是每个类别的原始分数（logits），而标签是一个整数，代表唯一的正确类别。然而，在多标签分类中，一个样本可能同时属于多个类别，因此CrossEntropyLoss不再适用。

替换为 BCEWithLogitsLoss

对于多标签分类任务，标准的做法是使用二元交叉熵损失函数。torch.nn.BCEWithLogitsLoss是一个非常合适的选择，它结合了Sigmoid激活函数和二元交叉熵损失（Binary Cross Entropy Loss）。

BCEWithLogitsLoss的优势在于：

数值稳定性： 它直接作用于模型的原始输出（logits），内部处理Sigmoid操作，避免了手动计算Sigmoid可能导致的数值溢出或下溢问题。独立性： 它将多标签分类问题视为多个独立的二元分类问题。对于每个类别，模型预测一个logit，然后BCEWithLogitsLoss会独立地计算该类别预测与真实标签之间的二元交叉熵损失。

模型输出与标签格式

在多标签分类中，模型的输出层需要进行调整。如果原始模型用于单标签分类，其最后一层可能输出一个与类别数量相等的logit向量，并通过Softmax激活函数进行概率归一化。对于多标签分类，模型最后一层也应输出一个与类别数量相等的logit向量，但不应在其后接Softmax激活函数。这些原始的logits将直接输入到BCEWithLogitsLoss中。

标签的格式也必须是多热编码（multi-hot encoding），即一个与类别数量相等的向量，其中1表示该类别存在，0表示不存在。此外，标签的数据类型必须是浮点型（torch.float），以匹配BCEWithLogitsLoss的输入要求。

代码示例：损失函数替换

假设我们有7个可能的类别，并且标签格式如 [0, 1, 1, 0, 0, 1, 0]。

import torchimport torch.nn as nn# 假设模型输出的原始logits (batch_size, num_classes)# 这里以一个batch_size为1的示例num_classes = 7model_output_logits = torch.randn(1, num_classes) # 模拟模型输出的原始logits# 真实标签，必须是float类型且为多热编码# 示例标签: [0, 1, 1, 0, 0, 1, 0] 表示第1, 2, 5个类别存在true_labels = torch.tensor([[0, 1, 1, 0, 0, 1, 0]]).float()# 定义BCEWithLogitsLossloss_function = nn.BCEWithLogitsLoss()# 计算损失loss = loss_function(model_output_logits, true_labels)print(f"模型输出 logits: {model_output_logits}")print(f"真实标签: {true_labels}")print(f"计算得到的损失: {loss.item()}")# 在训练循环中的应用示例# pred = model(images.to(device)) # 模型输出原始logits# labels = labels.to(device).float() # 确保标签是float类型# loss = loss_function(pred, labels)# loss.backward()# optimizer.step()

注意事项：

图改改

在线修改图片文字

455 查看详情 模型最后一层： 确保模型输出层没有Softmax激活函数。如果模型末尾有nn.Linear(in_features, num_classes)，这通常是正确的。标签数据类型： 务必将标签转换为 torch.float 类型，否则 BCEWithLogitsLoss 会报错。

2. 多标签分类的评估策略

单标签分类任务通常使用准确率（Accuracy）作为主要评估指标。然而，在多标签分类中，由于一个样本可能有多个正确标签，或者没有标签，简单的准确率不再能全面反映模型性能。我们需要采用更细致的评估指标。

获取预测结果

BCEWithLogitsLoss处理的是原始logits，为了进行评估，我们需要将这些logits转换为二元预测（0或1）。这通常通过Sigmoid激活函数和设定一个阈值（threshold）来完成。

# 假设 model_output_logits 是模型的原始输出# model_output_logits = torch.randn(1, num_classes) # 从上面示例延续# 将logits通过Sigmoid函数转换为概率probabilities = torch.sigmoid(model_output_logits)# 设定阈值，通常为0.5threshold = 0.5# 将概率转换为二元预测predictions = (probabilities > threshold).int()print(f"预测概率: {probabilities}")print(f"二元预测 (阈值={threshold}): {predictions}")

常用的多标签评估指标

以下是多标签分类中常用的评估指标：

精确率（Precision）、召回率（Recall）和F1分数（F1-score）：这些指标可以针对每个类别独立计算，也可以通过平均策略（Micro-average, Macro-average）进行汇总。

Micro-average（微平均）： 将所有类别的真阳性（TP）、假阳性（FP）、假阴性（FN）分别累加，然后计算总体的精确率、召回率和F1分数。它更侧重于样本多的类别。Macro-average（宏平均）： 先计算每个类别的精确率、召回率和F1分数，然后取这些值的平均。它平等对待每个类别，不受类别样本数量的影响。

汉明损失（Hamming Loss）：衡量预测错误的标签占总标签的比例。值越低越好。Hamming Loss = (错误预测的标签数量) / (总标签数量)

Jaccard 指数（Jaccard Index / IoU）：衡量预测标签集合与真实标签集合的相似度。对于每个样本，Jaccard指数 = |预测标签 ∩ 真实标签| / |预测标签 ∪ 真实标签|。然后可以对所有样本取平均。

平均准确率（Average Precision, AP）和平均精度均值（Mean Average Precision, mAP）：在某些场景（如目标检测）中非常流行，但也可用于多标签分类。AP是PR曲线下的面积，mAP是所有类别AP的平均值。

使用 scikit-learn 进行评估

scikit-learn库提供了丰富的函数来计算这些指标。

from sklearn.metrics import precision_score, recall_score, f1_score, hamming_loss, jaccard_scoreimport numpy as np# 假设有多个样本的预测和真实标签# true_labels_np 和 predictions_np 都是 (num_samples, num_classes) 的二维数组true_labels_np = np.array([    [0, 1, 1, 0, 0, 1, 0],    [1, 0, 0, 1, 0, 0, 0],    [0, 0, 1, 1, 1, 0, 0]])predictions_np = np.array([    [0, 1, 0, 0, 0, 1, 0], # 样本0: 预测对2个，错1个（少预测一个标签）    [1, 1, 0, 0, 0, 0, 0], # 样本1: 预测对1个，错1个（多预测一个标签）    [0, 0, 1, 1, 0, 0, 0]  # 样本2: 预测对2个，错1个（少预测一个标签）])# 转换为一维数组以便于部分scikit-learn函数处理（对于micro/macro平均）# 或者直接使用多维数组并指定average='samples'/'weighted'/'none'y_true_flat = true_labels_np.flatten()y_pred_flat = predictions_np.flatten()print(f"真实标签:n{true_labels_np}")print(f"预测标签:n{predictions_np}")# Micro-average F1-scoremicro_f1 = f1_score(true_labels_np, predictions_np, average='micro')print(f"Micro-average F1-score: {micro_f1:.4f}")# Macro-average F1-scoremacro_f1 = f1_score(true_labels_np, predictions_np, average='macro')print(f"Macro-average F1-score: {macro_f1:.4f}")# Per-class F1-scoreper_class_f1 = f1_score(true_labels_np, predictions_np, average=None)print(f"Per-class F1-score: {per_class_f1}")# Hamming Lossh_loss = hamming_loss(true_labels_np, predictions_np)print(f"Hamming Loss: {h_loss:.4f}")# Jaccard Score (Average over samples)# 注意：jaccard_score在多标签中默认是average='binary'，需要指定其他平均方式jaccard = jaccard_score(true_labels_np, predictions_np, average='samples')print(f"Jaccard Score (Average over samples): {jaccard:.4f}")

评估流程建议：在训练过程中，可以定期计算Micro-F1或Macro-F1作为监控指标。在模型训练完成后，进行全面的评估，包括各项指标的计算，并分析每个类别的性能。

总结

将ViT模型从单标签多分类转换为多标签分类，关键在于理解任务性质的变化并进行相应的调整。核心步骤包括：

损失函数： 将torch.nn.CrossEntropyLoss替换为torch.nn.BCEWithLogitsLoss，以处理每个类别的独立二元分类问题。模型输出层： 确保模型的最后一层输出原始的logits，且其维度与类别数量匹配，不要在模型内部使用Softmax激活函数。标签格式： 真实标签必须是多热编码（multi-hot encoding）的浮点型张量。评估策略： 采用适合多标签任务的指标，如Micro/Macro-average的精确率、召回率、F1分数，以及Hamming Loss和Jaccard Index等。在评估前，需将模型的原始logits通过Sigmoid函数转换为概率，并设定阈值进行二值化。

通过这些调整，ViT模型能够有效地处理多标签分类任务，从而在更复杂的实际应用中发挥其强大的特征学习能力。

以上就是ViT多标签分类：损失函数与评估策略改造指南的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/590988.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python中精确生成高斯脉冲：FDTD应用中的常见陷阱与解决方案

上一篇 2025年11月10日 15:53:53

获取Telegram频道实体：邀请链接的鲁棒处理方法

下一篇 2025年11月10日 15:58:22

好文分享

为什么自定义样式表在 Safari 中访问百度页面时无法生效？

自定义样式表在 safari 中失效的原因用户尝试在 safari 偏好设置中添加自定义样式表，代码如下： body { background-image: url(“/users/luxury/desktop/wallhaven-o5762l.png”) !important;} 测试后发现，在…

程序猿
2025年12月24日
0000
好文分享

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
2000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
3000
好文分享

带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

响应式侧边导航栏不仅有助于改善网站的导航，还可以解决整齐放置链接的问题，从而增强用户体验。通过使用工具提示，可以让用户了解每个链接的功能，包括设计紧凑的情况。在本教程中，我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。对于那些一直想要一个干净、简…

程序猿
2025年12月24日
0000
如何在网页 F12 调试中查看鼠标悬停时才出现的 DOM 元素？

如何在网页 f12 调试中查看鼠标悬停时才出现的 dom 元素？在 f12 调试模式下，鼠标悬停时才出现的 dom 元素无法通过直接选择查看。解决方法根据显示原理的不同而有所区别： 1. css 控制的元素强制开启悬停状态：在 firefox 浏览器中，可以通过在开发者工具中手动开启选中元素的 …

程序猿
2025年12月24日 • 好文分享
1000
好文分享

布局 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在这里查看视觉效果：固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

程序猿
2025年12月24日
0000
好文分享

隐藏元素 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看隐藏元素的视觉效果 – codesandbox 隐藏元素 hiding elements hiding elements hiding elements hiding elements hiding element…

程序猿
2025年12月24日
4000
居中 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看垂直中心 – codesandbox 和水平中心的视觉效果。通过 css 居中垂直居中 centering centering centering centering centering centering立即…

程序猿
2025年12月24日 • 好文分享
3000
好文分享

如何在 Laravel 框架中轻松集成微信支付和支付宝支付？

如何用 laravel 框架集成微信支付和支付宝支付问题：如何在 laravel 框架中集成微信支付和支付宝支付？回答：建议使用 easywechat 的 laravel 版，easywechat 是一个由腾讯工程师开发的高质量微信开放平台 sdk，已被广泛地应用于许多 laravel 项目中…

程序猿
2025年12月24日
0000
好文分享

如何在移动端实现子 div 在父 div 内任意滑动查看？

如何在移动端中实现让子 div 在父 div 内任意滑动查看在移动端开发中，有时我们需要让子 div 在父 div 内任意滑动查看。然而，使用滚动条无法实现负值移动，因此需要采用其他方法。解决方案：使用绝对布局（absolute）或相对布局（relative）：将子 div 设置为绝对或相对定…

程序猿
2025年12月24日
0000
好文分享

移动端嵌套 DIV 中子 DIV 如何水平滑动？

移动端嵌套 DIV 中子 DIV 滑动在移动端开发中，遇到这样的问题：当子 DIV 的高度小于父 DIV 时，无法在父 DIV 中水平滚动子 DIV。无限画布要实现子 DIV 在父 DIV 中任意滑动，需要创建一个无限画布。使用滚动无法达到负值，因此需要使用其他方法。相对定位一种方法是将子…

程序猿
2025年12月24日
0000
好文分享

移动端项目中，如何消除rem字体大小计算带来的CSS扭曲？

移动端项目中消除rem字体大小计算带来的css扭曲在移动端项目中，使用rem计算根节点字体大小可以实现自适应布局。但是，此方法可能会导致页面打开时出现css扭曲，这是因为页面内容在根节点字体大小赋值后重新渲染造成的。解决方案：要避免这种情况，将计算根节点字体大小的js脚本移动到页面的最前面，即…

程序猿
2025年12月24日
0000
好文分享

Nuxt 移动端项目中 rem 计算导致 CSS 变形，如何解决？

Nuxt 移动端项目中解决 rem 计算导致 CSS 变形在 Nuxt 移动端项目中使用 rem 计算根节点字体大小时，可能会遇到一个问题：页面内容在字体大小发生变化时会重绘，导致 CSS 变形。解决方案：可将计算根节点字体大小的 JS 代码块置于页面最前端的标签内，确保在其他资源加载之前执…

程序猿
2025年12月24日
2000
好文分享

Nuxt 移动端项目使用 rem 计算字体大小导致页面变形，如何解决？

rem 计算导致移动端页面变形的解决方法在 nuxt 移动端项目中使用 rem 计算根节点字体大小时，页面会发生内容重绘，导致页面打开时出现样式变形。如何避免这种现象？解决方案：移动根节点字体大小计算代码到页面顶部，即 head 中。原理： flexível.js 也遇到了类似问题，它的解决…

程序猿
2025年12月24日
0000
好文分享

形状 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看 codesandbox 的视觉效果。通过css绘制各种形状如何在 css 中绘制正方形、梯形、三角形、异形三角形、扇形、圆形、半圆、固定宽高比、0.5px 线？ shapes 0.5px line .square { w…

程序猿
2025年12月24日
0000
好文分享

TDesign UI库中小程序开发的CSS选择器：为什么“.t-grid–card”能生效？

TDesign UI库中CSS选择器困惑在小程序开发中，使用TDesign UI库时，您可能会遇到一个困惑的CSS选择器。例如，在DOM结构中，一个元素的class为”t-grid t-card class t-class”, 但其CSS选择器却是”&#8216…

程序猿
2025年12月24日
0000
好文分享

有哪些美观的开源数字大屏驾驶舱框架？

开源数字大屏驾驶舱框架推荐问题：有哪些美观的开源数字大屏驾驶舱框架？答案：资源包 [弗若恩智能大屏驾驶舱开发资源包](https://www.fanruan.com/resource/152) 软件 [弗若恩报表 – 数字大屏可视化组件](https://www.fanruan.c…

程序猿
2025年12月24日
0000
好文分享

逻辑属性与旧版属性：如何根据文本方向选择合适的CSS属性？

CSS 逻辑属性与旧版属性 CSS 中引入了逻辑属性和旧版属性的概念。这些属性负责控制页面元素的外观和布局。逻辑属性逻辑属性以逻辑方向命名，如左右、上下。它们根据元素在文档流中的位置来确定元素的外观。例如：立即学习“前端免费学习笔记（深入）”； marginBlockStart：控制元素在垂直…

程序猿
2025年12月24日
0000
好文分享

CSS 逻辑属性和旧版属性：如何选择？

css逻辑属性与旧版属性 css中，逻辑属性和旧版属性用于控制元素的布局和外观。然而，两者在语法和使用方式上有所不同。逻辑属性逻辑属性是基于元素在现实世界中的预期行为来命名的。它使用诸如 “start”、”end” 和 “block&#…

程序猿
2025年12月24日
4000
好文分享

网站底部如何实现飘彩带效果？

网站底部飘彩带效果的 js 库实现许多网站都会在特殊节日或活动中添加一些趣味性的视觉效果，例如点击按钮后散发的五彩缤纷的彩带。对于一个特定的网站来说，其飘彩带效果的实现方式可能有以下几个方面：以 https://dub.sh/ 网站为例，它底部按钮点击后的彩带效果是由 javascript 库实…

程序猿
2025年12月24日
0000

发表回复

登录后才能评论

ViT多标签分类：损失函数与评估策略改造指南

1. 损失函数的转换

2. 多标签分类的评估策略

总结

关于作者

相关推荐

发表回复