近日,一篇以《Image Clustering with External Guidance》为题的论文,提出了能够大幅提升CLIP图像聚类性能,引入外部知识库内容辅助深度聚类的方法。
论文题目:Image Clustering with External Guidance论文地址:https://arxiv.org/abs/2310.11989代码地址:https://github.com/XLearning-SCU/2024-ICML-TAC背景作为机器学习的经典任务之一,图像聚类旨在无需依赖样本标注的情况下,将图像依据语义划分到不同的类簇中,其核心在于利用先验知识构建监督信号。从经典基于类簇紧致性的k-means到近年来基于增广不变性的对比聚类[1],聚类方法的发展本质上对应于监督信号的演进。
表2:所提出的TAC方法在更具挑战性的图像聚类数据集上的聚类性能从结果中可以看出,在缺少标注信息的情况下所提出的TAC方法通过为每个图像构建文本表征,能够有效地从文本模态中挖掘语义信息。在无需任何额外训练的情况下,TAC (no train)显著提高了直接在CLIP提取的图像表征上使用k-means聚类的性能,特别是在更困难的数据集上。当进一步使用提出的跨模态相互蒸馏策略训练聚类网络时,TAC取得了最优的聚类性能,甚至超过了依赖类别标签信息的CLIP Zero-shot分类性能。总结与展望不同于现有的聚类研究聚焦于从数据内部构建监督信号,本文创新性地提出利用此前被忽略的外部知识来引导聚类。所提出的TAC方法通过在无需文本描述的情况下,从预训练CLIP模型的文本模态挖掘语义信息,显著提升了图像聚类性能,证明了所提出的外部引导聚类新范式的有效性。所提出的外部引导聚类范式的挑战在于:如何选择合适的外部知识;如何有效的整合外部知识以辅助聚类。除了本工作关注的文本语义外,外部知识广泛存在于各类的数据、模型、知识库等,对于不同的数据类型和聚类目标,需要针对性地选择与利用外部知识。总的来说,在目前大模型、知识库日趋成熟背景下,外部引导的聚类新范式具备良好的发展潜力,希望未来有更多工作进行相关的探索。参考文献:[1] Li Y, Hu P, Liu Z, et al. Contrastive clustering[C]//Proceedings of the AAAI conference on artificial intelligence. 2021, 35(10): 8547-8555.[2] Miller G A. WordNet: a lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.
如何在移动端中实现让子 div 在父 div 内任意滑动查看 在移动端开发中,有时我们需要让子 div 在父 div 内任意滑动查看。然而,使用滚动条无法实现负值移动,因此需要采用其他方法。 解决方案: 使用绝对布局(absolute)或相对布局(relative):将子 div 设置为绝对或相对定…
移动端嵌套 DIV 中子 DIV 滑动 在移动端开发中,遇到这样的问题:当子 DIV 的高度小于父 DIV 时,无法在父 DIV 中水平滚动子 DIV。 无限画布 要实现子 DIV 在父 DIV 中任意滑动,需要创建一个无限画布。使用滚动无法达到负值,因此需要使用其他方法。 相对定位 一种方法是将子…
rem 计算导致移动端页面变形的解决方法 在 nuxt 移动端项目中使用 rem 计算根节点字体大小时,页面会发生内容重绘,导致页面打开时出现样式变形。如何避免这种现象? 解决方案: 移动根节点字体大小计算代码到页面顶部,即 head 中。 原理: flexível.js 也遇到了类似问题,它的解决…
如何绘制带发光的 3d 图表,类似于 echarts 中的示例? 为了实现类似的 3d 图表效果,需要引入 echarts-gl 库:https://github.com/ecomfe/echarts-gl。 echarts-gl 专用于在 webgl 环境中渲染 3d 图形。它提供了各种 3d 图…