llm2clip

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本

在当今多模态领域，clip 模型凭借其卓越的视觉与文本对齐能力，推动了视觉基础模型的发展。clip 通过对大规模图文对的对比学习，将视觉与语言信号嵌入到同一特征空间中，受到了广泛应用。然而，CLIP 的文本处理能力被广为诟病，难以充分理解长文本和复杂的知识表达。随着大语言模型的发展，新的可能性逐渐…

程序猿
2025年11月6日 • 用户投稿
0000

关注微信