模态_创想鸟

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

上海交大、上海ai lab和港中文大学的研究人员推出visual-rft（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（lvlm）性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调（rft）范式相结合，成功地将这一方法…

程序猿

2025年12月3日 • 用户投稿

1000

多模态 AI+ 折叠形态！三星 Galaxy AI 体验沙龙速览

7 月 29 日，三星在广州举办了一场 galaxy ai 体验沙龙，集中呈现了 galaxy z 系列新品在 ai 功能方面的最新进展，深入探讨 ai 技术如何融入并优化用户的日常生活场景。作为特邀体验官，pconline 亲临现场，实地感受了多款新品搭载的前沿 ai 能力。折叠屏设计，如何激发…

程序猿

2025年12月2日 • 用户投稿

5000

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

4 秒看完 2 小时电影，阿里团队新成果正式亮相—— 推出通用多模态大模型 mPLUG-Owl3，专门用来理解多图、长视频。具体来说，以 LLaVA-Next-Interleave 为基准，mPLUG-Owl3 将模型的First Token Latency 缩小了 6 倍，且单张 A100 能建…

程序猿

2025年11月8日 • 用户投稿

0000

摆脱编码器依赖！Encoder-free 3D 多模态大模型，性能超越 13B 现有 SOTA

突破性进展：无编码器3d多模态大模型enel问世！这项由上海AI Lab、西北工业大学、香港中文大学和清华大学等机构联合研发的ENEL模型，将无编码器多模态大模型拓展到了3D领域，实现了对不同点云分辨率的适应性，并彻底摆脱了对预训练编码器的依赖。 ENEL在Objaverse基准测试中表现卓越，性…

程序猿

2025年11月5日 • 用户投稿

1000