视频表征学习

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

在 2024 世界经济论坛的一次会谈中，图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测，而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征，正是促进该过程的关键技术。然而，当下视频与文本描述间广泛存在的噪声关…

程序猿
2025年11月11日 • 用户投稿
1000

关注微信