ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

iclr2024 | harvard fairseg: 第一个研究分割算法公平性的大型医疗分割数据集

作者 | 田宇

编辑 | 白菜叶

近年来,人工智能模型的公平性问题受到了越来越多的关注,尤其是在医学领域,因为医学模型的公平性对人们的健康和生命至关重要。高质量的医学公平性数据集对促进公平学习研究非常必要。

现有的医学公平性数据集都是针对分类任务的,而没有可用于医学分割的公平性数据集,但是医学分割与分类一样都是非常重要的医学 AI 任务,在某些场景分割甚至优于分类,因为它能够提供待临床医生评估的器官异常的详细空间信息。

在最新的研究中,哈佛大学(Harvard University)的Harvard-Ophthalmology-AI-Lab 团队提出了第一个用于医学分割的公平性数据集,名为 Harvard-FairSeg,包含 10,000 个患者样本。此外,还提出了一种公平的误差界限缩放方法,通过使用最新的 Segment Anything Model(SAM),以每个身份组的上界误差为基础重新加权损失函数。

为了促进公平比较,该团队利用了一种新颖的评估公平性在分割任务的标准,叫做 equity-scaled segmentation performance。通过全面的实验,研究人员证明了他们的方法要么具有优越性,要么与最先进的公平学习模型在公平性能上相当。

在这里,哈佛大学的研究人员和大家分享一波 ICLR 2024 中稿的工作「Harvard FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling」。

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集
文章地址: https://arxiv.org/pdf/2311.02189.pdf

代码地址: https://github.com/Harvard-Ophthalmology-AI-Lab/Harvard-FairSeg

数据集网站:https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k/

数据集下载链接: https://drive.google.com/drive/u/1/folders/1tyhEhYHR88gFkVzLkJI4gE1BoOHoHdWZ

Harvard-Ophthalmology-AI-Lab 致力于提供高质量公平性数据集,更多数据集包含三种眼科疾病的公平性分类任务。

Harvard-Ophthalmology-AI-Lab 的数据集网页:https://ophai.hms.harvard.edu/datasets/

背景

随着人工智能在医学影像诊断中的应用日益增多,确保这些深度学习模型的公平性并深入探究在复杂的现实世界情境中可能出现的隐藏偏见变得至关重要。遗憾的是,机器学习模型可能无意中包含了与医学图像相关的敏感属性(如种族和性别),这可能影响模型区分异常的能力。这一挑战促使人们在机器学习和计算机视觉领域进行了大量的努力,以调查偏见、倡导公平性,并推出新的数据集。

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

截至目前,只有少数公共公平性数据集被提出用于研究公平性分类,主要的是,这些数据集中的大多数都只是表格数据,因此不适合开发需要影像数据的公平计算机视觉模型。对计算机视觉公平性的缺失尤其令人关注,特别是考虑到依赖此类数据的深度学习模型的影响力日益增强。在医学影像领域,只有少数数据集被用于公平学习。

这些数据集大多没有专门为公平性建模而设计(目前仅有的医疗图像数据集我们列在了table 1)。它们通常只包含有限范围的敏感属性,如年龄、性别和种族,因此限制了检查不同人群公平性的范围。此外,它们也缺乏全面的基准测试框架。更重要的是,尽管这些先前的数据集和方法为医学分类提供了解决方案,但它们忽视了医学分割这一更为关键的领域。

然而,为公平学习创建这样一个新的大型数据集面临着多重挑战。首先,缺乏大规模、高质量的医学数据以及手工像素级注释,这些都需要大量劳动力和时间来收集和标注。其次,现有提升公平性的方法主要是为医学分类设计的,当适应分割任务时,其性能仍然存疑。同样不确定的是,分割任务中存在的不公平是否可以通过算法有效地缓解。最后,评估医学分割模型公平性的评判标准 (evaluation metric)仍然难以捉摸。此外,将现有为分类设计的公平性指标适应到分割任务上也可能存在挑战。

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

为了解决这些挑战,我们提出了第一个大规模医学分割领域的公平性数据集,Harvard-FairSeg。该数据集旨在用于研究公平性的cup-disc segmentation,从 SLO 眼底图像中诊断青光眼,如图 1 所示。

青光眼是全球不可逆盲目的主要原因之一,在 40-80 岁年龄段的患病率为 3.54%,大约影响了 8000 万人。早期青光眼通常无症状,这强调了及时进行专业检查的必要性。对 cup-disc 的准确分割对于医疗专业人员早期诊断青光眼至关重要。

值得注意的是,与其他群体相比,黑人患青光眼的风险加倍,然而这一人群的分割准确率通常最低。这激励我们整理一个数据集,以研究分割公平性问题我们提出的 Harvard-FairSeg 数据集的亮点如下:

(1)医学分割领域第一个公平性学习数据集。该数据集提供了 SLO 眼底成像数据的 cup-disc 分割;(2)该数据集配备了从现实医院临床情景中收集的六种敏感属性,用于研究公平性学习问题;(3)我们在我们提出的新数据集上评估了多个 SOTA 公平性学习算法,并使用包括 Dice 和 IoU 在内的多种分割性能指标进行了评估。

如何获得大量的高质量分割标注

本研究中测试的对象来自于一家大型学术眼科医院,时间跨度为 2010 年至 2021 年。本研究将发布三种类型的数据:(1)SLO 眼底扫描图像;(2)患者人口统计信息 包含了六种不同的属性;(3)由 OCT 机器自动标注以及由专业医疗从业者手工评级的像素级标注如何获得大量高质量分割标注一直是医疗分割的很重要分体。

我们新颖的通过把 cup 和 disc 区域的像素标注首先从 OCT 机器获得,其中  disc 边界在 3D OCT 中被分割为 Bruch’s 膜开口,由 OCT 制造商软件实现, cup 边界被检测为内限膜(ILM)与导致最小表面积的平面之间的交叉点和 disc 边界在平面上的交叉点。大致上,cup 边界可以被认为是 ILM 上最靠近视盘边界的位置,即被定义为 Bruch’s 膜开口。

由于 Bruch’s 膜开口和内限膜与背景之间的高对比度,它们很容易被分割。因此因为 OCT 制造商软件利用了 3D 信息,利用 oct 机器对 cup 和 disc 的分割通常是可靠的。

相比之下,眼底照片上的 2Dcup 和 disc 分割可能因包括衰减的成像信号和血管阻塞等各种因素而具有挑战性。然而,由于 OCT 机器相当昂贵且在初级保健中较少见,因此我们提议将这些注释从 3D OCT 迁移到 2D SLO 眼底图片,以在初级保健领域的早期青光眼筛查中产生更广泛的影响。

具体来说,我们首先使用 NiftyReg 工具将 SLO 眼底图像与 OCT 衍生的眼底图像(OCT 眼底)对齐随后,将 NiftyReg 的仿射度量应用于 OCT 眼底图像的 cup-disc 掩码,使其与 SLO 眼底图像对齐。这一过程有效地产生了大量高质量的SLO眼底掩码注释,避免了劳动密集型的手工像素标注过程。

新CG儿 新CG儿

数字视觉分享平台 | AE模板_视频素材

新CG儿 412 查看详情 新CG儿

值得注意的是,这种 medical registration 的操作在现实世界场景中展示了相当高的精确度,我们的经验观察表明,medical registration 成功率大约为 80%。在这一自动化过程之后,生成的掩码经过严格审查,并由五名医学专业人员小组手动评级,以确保 cup-disc 区域的精确标注,并排除位置错误的 cup 或 disc 掩码和 registration 失败的情况。

数据特征:我们的 Harvard-FairSeg 数据集包含来自 10,000 名受试者的 10,000 个样本。我们将数据分为包含 8,000 个样本的训练集和包含 2,000 个样本的测试集。数据集的平均年龄为 60.3±16.5 岁。在该数据集中,包含了六个敏感属性,用于深入的公平性学习研究,这些属性包括年龄、性别、种族、民族、首选语言和婚姻状况。

在种族人口统计学上,数据集包括来自三个主要群体的样本:亚洲人,有919个样本;黑人,有 1,473 个样本;白人,有 7,608 个样本。在性别方面,女性占受试者的 58.5%,其余为男性。民族分布以90.6% 的非西班牙裔,3.7% 的西班牙裔和 5.7% 的未说明。在首选语言方面,92.4% 的受试者首选英语,1.5% 首选西班牙语,1%首选其他语言,5.1% 未确定。从婚姻状况的角度来看,57.7%的人已婚或有伴侣,27.1% 是单身,6.8% 经历过离婚,0.8%法律上分居,5.2%是丧偶,2.4% 未说明。

我们的提升公平性的方法 Fair Error-Bound Scaling

我们假设获得较小整体 Dice 损失的样本组意味着模型对该特定组的样本学习得更好,因此,这些样本组需要较小的权重。相反,整体 Dice 损失较大的样本组(即难处理的案例)可能导致更差的泛化能力并引起更多的算法偏差,这需要为这些样本组分配较大的学习权重。

因此,我们提出了一种新的公平误差界限缩放方法,用于在训练过程中缩放不同人群组之间的 Dice 损失。我们首先定义预测像素得分和真实目标之间的标准 Dice 损失表示为:

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

为了确保在不同属性组之间的公平性,我们使用一种新颖的公平误差界限缩放机制来增强上述Dice损失。损失函数:

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

通过用这些属性权重调节预测像素得分,这种损失确保不同属性组在模型训练过程中平衡地贡献于损失函数,从而促进公平性。

用于评估公平分割准确性的 metric:传统的分割度量如 Dice 和 IoU 提供了对分割性能的洞察,但可能无法有效捕捉不同群体间的公平性。考虑到这一点,我们的目标是提出一种新的 metric,既包括分割的准确性,也包括在不同群体间的公平性。这就产生了一个全面的视角,确保模型既准确又公平。

为了纳入群体公平性,我们需要单独评估群体的准确性。我们首先定义一个分割度量准确率差异 ∆,如下所示:

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

这里,∆ 度量了每个群体的准确性与总体准确性的总体偏差。当所有群体达到类似的分割准确性时,它接近零。

当我们考虑不同群体间的公平性时,我们需要计算总体分割准确性与每个人口统计群体内的准确性之间的相对差异。基于这个,我们定义了Equity-Scaled Segmentation Performance(ESSP)度量,如下所定义:

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

这种公式确保 ESSP 始终小于或等于 I。随着 ∆ 减小(表示群体间的分割性能平等),ESSP 趋于传统分割 metric。相反,较高的 ∆ 表示群体间分割性能的更大差异,导致较低的 ESSP 得分。

这种方法允许我们评估分割模型不仅在准确性(通过 Dice、IoU 等 metric)上,而且在不同群体间的公平性上。这使得 ESSP 评分函数成为确保医学成像任务中分割准确性和公平性的关键指标。这种 metric 可以和传统的 dice IoU 拼到一起 成为 ES-Dice 和 ES-IoU。

实验

我们选择了两个分割网络作为 backbone。其中,我们选择了最近推出的分割大模型 Segment Anything Model (SAM) 来实验 SOTA 的分割准确性,另一个 backbone 我们选择了 TransUNet。

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

我们也利用了其他分割的 metric 例如 HD95 ASD 和 NSD 进行测试,下面是在种族上的结果:

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

以上就是ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/792683.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月26日 14:54:10
下一篇 2025年11月26日 14:55:09

相关推荐

  • soul怎么发长视频瞬间_Soul长视频瞬间发布方法

    可通过分段发布、格式转换或剪辑压缩三种方法在Soul上传长视频。一、将长视频用相册编辑功能拆分为多个30秒内片段,依次发布并标注“Part 1”“Part 2”保持连贯;二、使用“格式工厂”等工具将视频转为MP4(H.264)、分辨率≤1080p、帧率≤30fps、大小≤50MB,适配平台要求;三、…

    2025年12月6日 软件教程
    500
  • 天猫app淘金币抵扣怎么使用

    在天猫app购物时,淘金币是一项能够帮助你节省开支的实用功能。掌握淘金币的抵扣使用方法,能让你以更实惠的价格买到心仪商品。 当你选好商品并准备下单时,记得查看商品页面是否支持淘金币抵扣。如果该商品支持此项功能,在提交订单的页面会明确显示相关提示。你会看到淘金币的具体抵扣比例——通常情况下,淘金币可按…

    2025年12月6日 软件教程
    500
  • Pboot插件缓存机制的详细解析_Pboot插件缓存清理的命令操作

    插件功能异常或页面显示陈旧内容可能是缓存未更新所致。PbootCMS通过/runtime/cache/与/runtime/temp/目录缓存插件配置、模板解析结果和数据库查询数据,提升性能但影响调试。解决方法包括:1. 手动删除上述目录下所有文件;2. 后台进入“系统工具”-“缓存管理”,勾选插件、…

    2025年12月6日 软件教程
    100
  • Word2013如何插入SmartArt图形_Word2013SmartArt插入的视觉表达

    答案:可通过四种方法在Word 2013中插入SmartArt图形。一、使用“插入”选项卡中的“SmartArt”按钮,选择所需类型并插入;二、从快速样式库中选择常用模板如组织结构图直接应用;三、复制已有SmartArt图形到目标文档后调整内容与格式;四、将带项目符号的文本选中后右键转换为Smart…

    2025年12月6日 软件教程
    000
  • 《kk键盘》一键发图开启方法

    如何在kk键盘中开启一键发图功能? 1、打开手机键盘,找到并点击“kk”图标。 2、进入工具菜单后,选择“一键发图”功能入口。 3、点击“去开启”按钮,跳转至无障碍服务设置页面。 4、在系统通用设置中,进入“已下载的应用”列表。 j2me3D游戏开发简单教程 中文WORD版 本文档主要讲述的是j2m…

    2025年12月6日 软件教程
    100
  • 怎样用免费工具美化PPT_免费美化PPT的实用方法分享

    利用KIMI智能助手可免费将PPT美化为科技感风格,但需核对文字准确性;2. 天工AI擅长优化内容结构,提升逻辑性,适合高质量内容需求;3. SlidesAI支持语音输入与自动排版,操作便捷,利于紧急场景;4. Prezo提供多种模板,自动生成图文并茂幻灯片,适合学生与初创团队。 如果您有一份内容完…

    2025年12月6日 软件教程
    000
  • Pages怎么协作编辑同一文档 Pages多人实时协作的流程

    首先启用Pages共享功能,点击右上角共享按钮并选择“添加协作者”,设置为可编辑并生成链接;接着复制链接通过邮件或社交软件发送给成员,确保其使用Apple ID登录iCloud后即可加入编辑;也可直接在共享菜单中输入邮箱地址定向邀请,设定编辑权限后发送;最后在共享面板中管理协作者权限,查看实时在线状…

    2025年12月6日 软件教程
    100
  • 哔哩哔哩的视频卡在加载中怎么办_哔哩哔哩视频加载卡顿解决方法

    视频加载停滞可先切换网络或重启路由器,再清除B站缓存并重装应用,接着调低播放清晰度并关闭自动选分辨率,随后更改播放策略为AVC编码,最后关闭硬件加速功能以恢复播放。 如果您尝试播放哔哩哔哩的视频,但进度条停滞在加载状态,无法继续播放,这通常是由于网络、应用缓存或播放设置等因素导致。以下是解决此问题的…

    2025年12月6日 软件教程
    000
  • REDMI K90系列正式发布,售价2599元起!

    10月23日,redmi k90系列正式亮相,推出redmi k90与redmi k90 pro max两款新机。其中,redmi k90搭载骁龙8至尊版处理器、7100mah大电池及100w有线快充等多项旗舰配置,起售价为2599元,官方称其为k系列迄今为止最完整的标准版本。 图源:REDMI红米…

    2025年12月6日 行业动态
    200
  • 买家网购苹果手机仅退款不退货遭商家维权,法官调解后支付货款

    10 月 24 日消息,据央视网报道,近年来,“仅退款”服务逐渐成为众多网购平台的常规配置,但部分消费者却将其当作“免费试用”的手段,滥用规则谋取私利。 江苏扬州市民李某在某电商平台购买了一部苹果手机,第二天便以“不想要”为由在线申请“仅退款”,当时手机尚在物流运输途中。第三天货物送达后,李某签收了…

    2025年12月6日 行业动态
    000
  • Linux中如何安装Nginx服务_Linux安装Nginx服务的完整指南

    首先更新系统软件包,然后通过对应包管理器安装Nginx,启动并启用服务,开放防火墙端口,最后验证欢迎页显示以确认安装成功。 在Linux系统中安装Nginx服务是搭建Web服务器的第一步。Nginx以高性能、低资源消耗和良好的并发处理能力著称,广泛用于静态内容服务、反向代理和负载均衡。以下是在主流L…

    2025年12月6日 运维
    000
  • 当贝X5S怎样看3D

    当贝X5S观看3D影片无立体效果时,需开启3D模式并匹配格式:1. 播放3D影片时按遥控器侧边键,进入快捷设置选择3D模式;2. 根据片源类型选左右或上下3D格式;3. 可通过首页下拉进入电影专区选择3D内容播放;4. 确认片源为Side by Side或Top and Bottom格式,并使用兼容…

    2025年12月6日 软件教程
    100
  • Linux journalctl与systemctl status结合分析

    先看 systemctl status 确认服务状态,再用 journalctl 查看详细日志。例如 nginx 启动失败时,systemctl status 显示 Active: failed,journalctl -u nginx 发现端口 80 被占用,结合两者可快速定位问题根源。 在 Lin…

    2025年12月6日 运维
    100
  • 华为新机发布计划曝光:Pura 90系列或明年4月登场

    近日,有数码博主透露了华为2025年至2026年的新品规划,其中pura 90系列预计在2026年4月发布,有望成为华为新一代影像旗舰。根据路线图,华为将在2025年底至2026年陆续推出mate 80系列、折叠屏新机mate x7系列以及nova 15系列,而pura 90系列则将成为2026年上…

    2025年12月6日 行业动态
    100
  • TikTok视频无法下载怎么办 TikTok视频下载异常修复方法

    先检查链接格式、网络设置及工具版本。复制以https://www.tiktok.com/@或vm.tiktok.com开头的链接,删除?后参数,尝试短链接;确保网络畅通,可切换地区节点或关闭防火墙;更新工具至最新版,优先选用yt-dlp等持续维护的工具。 遇到TikTok视频下载不了的情况,别急着换…

    2025年12月6日 软件教程
    100
  • Linux如何防止缓冲区溢出_Linux防止缓冲区溢出的安全措施

    缓冲区溢出可通过栈保护、ASLR、NX bit、安全编译选项和良好编码实践来防范。1. 使用-fstack-protector-strong插入canary检测栈破坏;2. 启用ASLR(kernel.randomize_va_space=2)随机化内存布局;3. 利用NX bit标记不可执行内存页…

    2025年12月6日 运维
    000
  • 2025年双十一买手机选直板机还是选折叠屏?建议看完这篇再做决定

    随着2025年双十一购物节的临近,许多消费者在选购智能手机时都会面临一个共同的问题:是选择传统的直板手机,还是尝试更具科技感的折叠屏设备?其实,这个问题的答案早已在智能手机行业的演进中悄然浮现——如今的手机市场已不再局限于“拼参数、堆配置”的初级竞争,而是迈入了以形态革新驱动用户体验升级的新时代。而…

    2025年12月6日 行业动态
    000
  • Linux如何优化系统性能_Linux系统性能优化的实用方法

    优化Linux性能需先监控资源使用,通过top、vmstat等命令分析负载,再调整内核参数如TCP优化与内存交换,结合关闭无用服务、选用合适文件系统与I/O调度器,持续按需调优以提升系统效率。 Linux系统性能优化的核心在于合理配置资源、监控系统状态并及时调整瓶颈环节。通过一系列实用手段,可以显著…

    2025年12月6日 运维
    000
  • Pboot插件数据库连接的配置教程_Pboot插件数据库备份的自动化脚本

    首先配置PbootCMS数据库连接参数,确保插件正常访问;接着创建auto_backup.php脚本实现备份功能;然后通过Windows任务计划程序或Linux Cron定时执行该脚本,完成自动化备份流程。 如果您正在开发或维护一个基于PbootCMS的网站,并希望实现插件对数据库的连接配置以及自动…

    2025年12月6日 软件教程
    000
  • 今日头条官方主页入口 今日头条平台直达网址官方链接

    今日头条官方主页入口是www.toutiao.com,该平台通过个性化信息流推送图文、短视频等内容,具备分类导航、便捷搜索及跨设备同步功能。 今日头条官方主页入口在哪里?这是不少网友都关注的,接下来由PHP小编为大家带来今日头条平台直达网址官方链接,感兴趣的网友一起随小编来瞧瞧吧! www.tout…

    2025年12月6日 软件教程
    000

发表回复

登录后才能评论
关注微信