
苹果近日在 Hugging Face 平台上正式开源了两大模型系列:FastVLM 与 MobileCLIP2。
FastVLM 是一种面向高分辨率图像的视觉语言模型(VLM),采用新型的 FastViTHD 混合视觉编码器,能够在降低输出 token 数量的同时显著缩短编码时间,从而更高效地解析图像与文本之间的关联。MobileCLIP2 则是 CLIP 模型的轻量级版本,专为移动设备和边缘计算场景优化,致力于实现低延迟、高效率的本地化推理。
FastVLM 系列涵盖 0.5B、1.5B 和 7B 三种参数规模。其中,FastVLM-7B 在 DocVQA 上取得 93.2 的成绩,在 ScienceQA 上达到 96.7,展现出行业领先的性能表现。
同时发布的还有 MobileCLIP2 模型系列,相关模型已上线 Hugging Face 的专属 Collections 页面。
小浣熊家族
小浣熊家族是基于商汤自研大语言模型的AI助手,提供代码小浣熊AI助手、办公小浣熊AI助手两大功能模块
71 查看详情
相关论文《FastVLM: Efficient Vision Encoding for Vision Language Models》已被 CVPR 2025 接收,论文内容已公开,模型仓库中也一并提供了引用信息。
https://www.php.cn/link/84403a769c84d34088c8b19584a235ad
https://www.php.cn/link/d6afc47d9260056bf6ebac5a4c908540
https://www.php.cn/link/49aea21a9ed85c3bd530a37df3de1c7e
以上就是苹果开源两大模型家族:FastVLM 与 MobileCLIP2的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/609481.html
微信扫一扫
支付宝扫一扫