8b
-
8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉
行业首个具备 ” 高刷 ” 视频理解能力的多模态模型minicpm-v 4.5的技术报告正式发布! 报告提出统一的 3D-Resampler 架构实现高密度视频压缩、面向文档的统一 OCR 和知识学习范式、可控混合快速 / 深度思考的多模态强化学习三大技术。 基于这些关键技术…
-
陈丹琦新作:大模型强化学习的第三条路,8B 小模型超越 GPT-4o
结合 RLHF 与 RLVR 的优势,仅需 8B 参数的小模型便能超越 GPT-4o,并媲美 Claude-3.7-Sonnet。 陈丹琦团队最新研究引发广泛关注。 他们提出了一种名为 RLMT(Reinforcement Learning with Model-rewarded Thinking,…