ICML 2024 Oral｜外部引导的深度聚类新范式

程序猿 • 2025年11月26日 15:24:19 • 用户投稿 • 阅读 2

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者李云帆，四川大学计算机学院 2020级直博研究生。在导师彭玺教授的指导下，博士期间主要围绕深度聚类开展理论、方法和应用的研究。目前已在国际权威刊物Nature Communications/JMLR/TPAMI/IJCV/ICML/CVPR等上发表学术论文13篇，谷歌学术引用共954次；发表于AAAI2021的Contrastive Clustering被引516次，是2021年以来聚类领域引用最高的论文；获首批国家自然科学基金青年学生基础研究项目（博士研究生）资助。

怎样才能将可爱又迷人的柯基与柴犬的图像进行区分？

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

icml 2024 oral｜外部引导的深度聚类新范式

如果单从图像识别角度而言，两种犬类在外观上极为相似，拥有相近的色块像素，仅凭数据内部信恩息（如图像自身）可能难以对二者进行区分，但如果借助外部数据和知识，情况可能会大幅改观。

近日，一篇以《Image Clustering with External Guidance》为题的论文，提出了能够大幅提升CLIP图像聚类性能，引入外部知识库内容辅助深度聚类的方法。

ICML 2024 Oral｜外部引导的深度聚类新范式

论文题目：Image Clustering with External Guidance

论文地址：https://arxiv.org/abs/2310.11989

代码地址：https://github.com/XLearning-SCU/2024-ICML-TAC

背景

作为机器学习的经典任务之一，图像聚类旨在无需依赖样本标注的情况下，将图像依据语义划分到不同的类簇中，其核心在于利用先验知识构建监督信号。从经典基于类簇紧致性的k-means到近年来基于增广不变性的对比聚类[1]，聚类方法的发展本质上对应于监督信号的演进。

ICML 2024 Oral｜外部引导的深度聚类新范式

图1: 聚类方法的发展大致可分为三个阶段: (1)传统聚类，基于数据分布假设设计聚类策略; (2)深度聚类，利用深度神经网络提取有利于聚类的特征; (3)自监督聚类，通过数据增广或动量网络等策略构建自监督信号。不同于此前的工作聚焦于从数据内部挖掘监督信号，本文提出利用外部知识来引导聚类，并将新范式归类为 (4)外部引导聚类。实验结果表明，通过利用文本模态中的语义信息，所提出的方法(TAC)显著提升了图像聚类精度。

现有的聚类研究虽然在方法设计上各不相同，但均是从数据内部挖掘监督信号，其性能最终会受限于数据自身所蕴含信息量的固有上限。举例来说，柯基和巴哥犬的图片有明显的差异，但其和柴犬在外观上十分相似，仅依据图像本身难以对二者进行区分。

但值得注意的是，在数据内蕴信息之外，现实世界中还存在着大量有助于聚类的外部知识，而在现有工作中被很大程度地忽略了。

在上述例子中，假设模型具备来自知识库的「柯基腿较短，而柴犬腿较长」等非图像域的外部先验，则能更准确地对二者的图像进行区分。

换而言之，与从数据中竭力地挖掘内部监督信号相比，利用更加丰富且容易获得的外部知识来引导聚类，有望起到事半功倍的效果。

方法

本文提出了一种简单而有效的外部引导聚类方法TAC（Text-Aided Clustering，文本辅助的聚类），基于预训练CLIP模型，通过利用来自文本模态的外部知识辅助图像聚类。

在缺乏类别标注和图像描述等文本信息的情况下，利用文本语义辅助图像聚类面临两个挑战：

如何构建图像的文本表征；

如何协同图像和文本进行聚类。

ICML 2024 Oral｜外部引导的深度聚类新范式

图2：所提出的TAC方法框架，包括文本表征构建和跨模态互蒸馏两部分。

一、文本表征构建

针对第一个挑战，由于样本标注、图像描述等文本信息在图像聚类任务中不可用，本文提出将来自WordNet[2]的所有名词作为文本模态的候选词，选择其中具有代表性的名词集合来组成文本空间。

具体地，为了使文本表征精确地覆盖图像语义，同时尽可能在不同类别图像之间具有区分度，本文首先使用k-means算法来计算图像语义中心。

考虑到过多的语义中心会关注过于细粒度的特征，不利于区分不同类别的图像，而过少的语义中心则会难以准确覆盖位于聚类边界图像的语义，本文提出根据样本点的个数估计k-means算法中合适的k值（实验中选取k=N/300，N为图像个数），并计算图像语义中心如下：

其中

当且仅当图像

属于第l个聚类，

表示第i张图像经过CLIP图像编码器后得到的表征。在得到图像语义中心后，为了选取具有代表性的名词集合，与常见的CLIP Zero-shot分类相反，本文将所有WordNet中的名词划分到k个图像语义中心，其中第i个名词属于第l和语义中心的概率为：

其中sim表示余弦相似性，

表示第i个名词经过预训练好的文本编码器后得到的表征。保留每个语义中心对应概率最高的名词，作为组成文本空间的候选词。

选取完具有代表性的名词集合后，可通过为每张图像检索其最相关的名词来构建其文本模态的表征：

ICML 2024 Oral｜外部引导的深度聚类新范式

新CG儿

数字视觉分享平台 | AE模板_视频素材

新CG儿 412 查看详情

其中，

表示第i张图像对应的文本模态中的表征，

表示组成文本空间的第j个候选名词，

控制检索的平滑程度。

至此，作者为每张图像构建出了其在文本模态中的表征。此时可通过在文本和图像的拼接表征

直接使用经典k-means聚类方法来实现图像聚类。

由于融入了来自文本模态的紧凑语义，拼接后的表征具有更好的判别性，从而相较于直接在图像表征上使用k-means会得到更好的图像聚类结果。

值得注意的是，上述文本模态的构建过程不需要任何的额外训练和模型调优，其中名词选取和检索过程的计算开销几乎可以忽略不计。

二、跨模态互蒸馏

尽管直接将文本和图像表征进行拼接已能显著提升图像聚类效果，但是简单的拼接并不能充分协同文本和图像两个模态。因此，本文进一步提出跨模态互蒸馏方法，通过训练额外的聚类网络进一步提升聚类性能。

具体地，为每张图像构建邻居集合

，并引入一个聚类网络f对每个图像表征做出聚类指派，在每次迭代中，计算所有图像和其邻居集合中随机的一个图像的聚类指派，记为：

ICML 2024 Oral｜外部引导的深度聚类新范式其中和分别对应图像i及其邻居的聚类指派，P和均为n*K的矩阵，其中K表示目标聚类个数。

相类似的，引入另一个聚类网络g来对每个文本表征做出聚类指派，同样为每个文本表征构建邻居集合

，在每次迭代中，计算所有文本和其邻居集合中随机的一个文本的聚类指派，记为：

其中

和

分别对应文本i及其邻居的聚类指派，Q和Q^N同样均为n*K的矩阵。

为了协同图像和文本两个模态，要求网络对于图像和其对应文本模态的邻居具有类似的聚类指派，同时对于文本和其对应图像模态的邻居也具有类似的聚类指派。为实现该目标，本文设计了如下的损失函数：

其中

分别表示聚类指派矩阵P,P^N,Q,Q^N的第i列，

为温度系数。该损失函数一方面能通过跨模态邻居之间的聚类指派一致性实现图文模态的协同，另一方面能扩大不同的类簇之间的差异性。

此外，为了使训练过程更加稳定，本文设计了另外两个正则项损失函数。首先，为了鼓励模型做出更加置信的聚类指派，提出如下损失函数：

该损失函数在

和

均为独热（One-hot）编码时被最小化，因此能提升聚类指派的置信度。另外，为了防止模型将大量图像和文本都分配到个别类簇中，提出了以下损失函数：

其中

和

分别表示图像和文本模态中整体的聚类分布。

综合上述三个损失函数，本文使用如下损失函数来优化图像和文本模态的聚类网络f和g：

ICML 2024 Oral｜外部引导的深度聚类新范式其中为权重参数。需要指出的是，上述损失函数只用来优化额外引入的聚类网络，并不修改CLIP预训练好的文本和图像编码器，因此其整体训练开销较小，实验表明所提出的方法在CIFAR-10的6万张图像上训练仅需使用1分钟。

训练完成后，只需将待聚类的图像输入聚类网络f，即可得到其聚类指派，从而实现准确的图像聚类。

实验

本文在五个经典数据集和三个更具挑战性的图像聚类数据集上对方法进行了验证，部分实验结果如下：

ICML 2024 Oral｜外部引导的深度聚类新范式

表1：所提出的TAC方法在经典图像聚类数据集上的聚类性能

ICML 2024 Oral｜外部引导的深度聚类新范式

表2：所提出的TAC方法在更具挑战性的图像聚类数据集上的聚类性能

从结果中可以看出，在缺少标注信息的情况下所提出的TAC方法通过为每个图像构建文本表征，能够有效地从文本模态中挖掘语义信息。在无需任何额外训练的情况下，TAC (no train)显著提高了直接在CLIP提取的图像表征上使用k-means聚类的性能，特别是在更困难的数据集上。

当进一步使用提出的跨模态相互蒸馏策略训练聚类网络时，TAC取得了最优的聚类性能，甚至超过了依赖类别标签信息的CLIP Zero-shot分类性能。

总结与展望

不同于现有的聚类研究聚焦于从数据内部构建监督信号，本文创新性地提出利用此前被忽略的外部知识来引导聚类。

所提出的TAC方法通过在无需文本描述的情况下，从预训练CLIP模型的文本模态挖掘语义信息，显著提升了图像聚类性能，证明了所提出的外部引导聚类新范式的有效性。

所提出的外部引导聚类范式的挑战在于：

如何选择合适的外部知识；

如何有效的整合外部知识以辅助聚类。

除了本工作关注的文本语义外，外部知识广泛存在于各类的数据、模型、知识库等，对于不同的数据类型和聚类目标，需要针对性地选择与利用外部知识。

总的来说，在目前大模型、知识库日趋成熟背景下，外部引导的聚类新范式具备良好的发展潜力，希望未来有更多工作进行相关的探索。

参考文献：

[1] Li Y, Hu P, Liu Z, et al. Contrastive clustering[C]//Proceedings of the AAAI conference on artificial intelligence. 2021, 35(10): 8547-8555.

[2] Miller G A. WordNet: a lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.

以上就是ICML 2024 Oral｜外部引导的深度聚类新范式的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/794346.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

java中字符数组怎么定义

上一篇 2025年11月26日 15:24:14

centos怎么安装flash

下一篇 2025年11月26日 15:24:20

用户投稿

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
5000
用户投稿

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
用户投稿

带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

响应式侧边导航栏不仅有助于改善网站的导航，还可以解决整齐放置链接的问题，从而增强用户体验。通过使用工具提示，可以让用户了解每个链接的功能，包括设计紧凑的情况。在本教程中，我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。对于那些一直想要一个干净、简…

程序猿
2025年12月24日
1000
用户投稿

布局 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在这里查看视觉效果：固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

程序猿
2025年12月24日
1000
用户投稿

隐藏元素 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看隐藏元素的视觉效果 – codesandbox 隐藏元素 hiding elements hiding elements hiding elements hiding elements hiding element…

程序猿
2025年12月24日
5000
居中 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看垂直中心 – codesandbox 和水平中心的视觉效果。通过 css 居中垂直居中 centering centering centering centering centering centering立即…

程序猿
2025年12月24日 • 用户投稿
4000
用户投稿

如何在 Laravel 框架中轻松集成微信支付和支付宝支付？

如何用 laravel 框架集成微信支付和支付宝支付问题：如何在 laravel 框架中集成微信支付和支付宝支付？回答：建议使用 easywechat 的 laravel 版，easywechat 是一个由腾讯工程师开发的高质量微信开放平台 sdk，已被广泛地应用于许多 laravel 项目中…

程序猿
2025年12月24日
1000
用户投稿

如何在移动端实现子 div 在父 div 内任意滑动查看？

如何在移动端中实现让子 div 在父 div 内任意滑动查看在移动端开发中，有时我们需要让子 div 在父 div 内任意滑动查看。然而，使用滚动条无法实现负值移动，因此需要采用其他方法。解决方案：使用绝对布局（absolute）或相对布局（relative）：将子 div 设置为绝对或相对定…

程序猿
2025年12月24日
1000
用户投稿

移动端嵌套 DIV 中子 DIV 如何水平滑动？

移动端嵌套 DIV 中子 DIV 滑动在移动端开发中，遇到这样的问题：当子 DIV 的高度小于父 DIV 时，无法在父 DIV 中水平滚动子 DIV。无限画布要实现子 DIV 在父 DIV 中任意滑动，需要创建一个无限画布。使用滚动无法达到负值，因此需要使用其他方法。相对定位一种方法是将子…

程序猿
2025年12月24日
1000
用户投稿

移动端项目中，如何消除rem字体大小计算带来的CSS扭曲？

移动端项目中消除rem字体大小计算带来的css扭曲在移动端项目中，使用rem计算根节点字体大小可以实现自适应布局。但是，此方法可能会导致页面打开时出现css扭曲，这是因为页面内容在根节点字体大小赋值后重新渲染造成的。解决方案：要避免这种情况，将计算根节点字体大小的js脚本移动到页面的最前面，即…

程序猿
2025年12月24日
0000
用户投稿

Nuxt 移动端项目中 rem 计算导致 CSS 变形，如何解决？

Nuxt 移动端项目中解决 rem 计算导致 CSS 变形在 Nuxt 移动端项目中使用 rem 计算根节点字体大小时，可能会遇到一个问题：页面内容在字体大小发生变化时会重绘，导致 CSS 变形。解决方案：可将计算根节点字体大小的 JS 代码块置于页面最前端的标签内，确保在其他资源加载之前执…

程序猿
2025年12月24日
2000
用户投稿

Nuxt 移动端项目使用 rem 计算字体大小导致页面变形，如何解决？

rem 计算导致移动端页面变形的解决方法在 nuxt 移动端项目中使用 rem 计算根节点字体大小时，页面会发生内容重绘，导致页面打开时出现样式变形。如何避免这种现象？解决方案：移动根节点字体大小计算代码到页面顶部，即 head 中。原理： flexível.js 也遇到了类似问题，它的解决…

程序猿
2025年12月24日
0000
用户投稿

形状 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看 codesandbox 的视觉效果。通过css绘制各种形状如何在 css 中绘制正方形、梯形、三角形、异形三角形、扇形、圆形、半圆、固定宽高比、0.5px 线？ shapes 0.5px line .square { w…

程序猿
2025年12月24日
1000
用户投稿

有哪些美观的开源数字大屏驾驶舱框架？

开源数字大屏驾驶舱框架推荐问题：有哪些美观的开源数字大屏驾驶舱框架？答案：资源包 [弗若恩智能大屏驾驶舱开发资源包](https://www.fanruan.com/resource/152) 软件 [弗若恩报表 – 数字大屏可视化组件](https://www.fanruan.c…

程序猿
2025年12月24日
0000
用户投稿

网站底部如何实现飘彩带效果？

网站底部飘彩带效果的 js 库实现许多网站都会在特殊节日或活动中添加一些趣味性的视觉效果，例如点击按钮后散发的五彩缤纷的彩带。对于一个特定的网站来说，其飘彩带效果的实现方式可能有以下几个方面：以 https://dub.sh/ 网站为例，它底部按钮点击后的彩带效果是由 javascript 库实…

程序猿
2025年12月24日
0000
网站彩带效果背后是哪个JS库？

网站彩带效果背后是哪个js库？当你访问某些网站时，点击按钮后，屏幕上会飘出五颜六色的彩带，营造出庆祝的氛围。这些效果是通过使用javascript库实现的。问题：哪个javascript库能够实现网站上点击按钮散发彩带的效果？答案：根据给定网站的源代码分析：可以发现，该网站使用了以下js…

程序猿
用户投稿 2025年12月24日
1000
用户投稿

产品预览卡项目

这个项目最初是来自 Frontend Mentor 的挑战，旨在使用 HTML 和 CSS 创建响应式产品预览卡。最初的任务是设计一张具有视觉吸引力和功能性的产品卡，能够无缝适应各种屏幕尺寸。这涉及使用 CSS 媒体查询来确保布局在不同设备上保持一致且用户友好。产品卡包含产品图像、标签、标题、描述和…

程序猿
2025年12月24日
1000
用户投稿

如何利用 echarts-gl 绘制带发光的 3D 图表？

如何绘制带发光的 3d 图表，类似于 echarts 中的示例？为了实现类似的 3d 图表效果，需要引入 echarts-gl 库：https://github.com/ecomfe/echarts-gl。 echarts-gl 专用于在 webgl 环境中渲染 3d 图形。它提供了各种 3d 图…

程序猿
2025年12月24日
0000
用户投稿

如何在 Element UI 的 el-rate 组件中实现 5 颗星 5 分制与百分制之间的转换？

如何在el-rate中将5颗星5分制的分值显示为5颗星百分制？要实现该效果，只需使用 el-rate 组件的 allow-half 属性。在设置 allow-half 属性后，获得的结果乘以 20 即可得到0-100之间的百分制分数。如下所示： score = score * 20; 动态显示鼠标…

程序猿
2025年12月24日
1000
用户投稿

CSS 最佳实践：后端程序员重温 CSS 时常见的三个疑问？

CSS 最佳实践：提升代码质量作为后端程序员，在重温 CSS/HTML 时，你可能会遇到一些关于最佳实践的问题。以下将解答三个常见问题，帮助你编写更规范、清晰的 CSS 代码。 1. margin 设置策略当相邻元素都设置了 margin 时，通常情况下应为上一个元素设置 margin-bott…

程序猿
2025年12月24日
0000

发表回复

登录后才能评论

ICML 2024 Oral｜外部引导的深度聚类新范式

关于作者

相关推荐

发表回复