qwe
-
原来,这些顶级大模型都是蒸馏的
中国科学院深圳先进技术研究院、北京大学和零一万物等机构的研究人员在一篇新论文中指出,除了 claude、豆包和 gemini 外,许多知名的闭源和开源大型语言模型(llm)都显示出高度的蒸馏现象。 近期,一位海外技术分析师推测,一些顶级AI公司可能已开发出极其强大的模型(例如OpenAI的GPT-5…
-
陈丹琦新作:大模型强化学习的第三条路,8B 小模型超越 GPT-4o
结合 RLHF 与 RLVR 的优势,仅需 8B 参数的小模型便能超越 GPT-4o,并媲美 Claude-3.7-Sonnet。 陈丹琦团队最新研究引发广泛关注。 他们提出了一种名为 RLMT(Reinforcement Learning with Model-rewarded Thinking,…