苹果宣布将携多篇论文亮相 2025 年国际计算机视觉大会(iccv 2025),展示其在多模态人工智能、图像生成及视频理解等关键技术领域的最新研究成果。本届大会将于 10 月 19 日至 23 日在夏威夷檀香山召开。

此次,苹果共有八项研究工作被大会收录,内容涉及文本到视频生成的评估机制、三维空间感知能力分析、多模态模型扩展规律探索,以及统一架构下的图像生成与编辑扩散模型等多个前沿课题。具体包括:
ETVA:一种新颖的文本-视频对齐质量评估方法;MM-Spatial:针对多模态大模型在三维空间理解方面的性能探究;Scaling Laws for Native Multimodal Models:深入研究原生多模态模型随规模增长的表现规律;Stable Diffusion Models are Secretly Good at Visual In-Context Learning:揭示稳定扩散模型在视觉上下文学习任务中隐藏的强大能力;UniVG:支持图像生成与编辑一体化的通用扩散框架;以及用于评测交互式智能体表现的基准工具 UINavBench 等。
值得一提的是,苹果应用研究经理 Dr. C. Thomas 将受邀在大会的工业视觉检测专题环节发表主旨演讲。同时,苹果研究团队成员 Patricia Vitoria Carrera 与 Tanya Glozman 将出席“女性在计算机视觉”(Women in Computer Vision, WiCV Workshop) 工作坊并担任导师,致力于推动学术界的多样性与包容性发展。
以上就是苹果将在 ICCV 2025 展示多项前沿视觉研究成果的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/21883.html
微信扫一扫
支付宝扫一扫