小模型
-
AI 的下一个战场:小模型崛起
过去一段时间,大模型行业经历了一场风切变。 八月初,腾讯官宣 ” 混元系列小模型 ” 落地,不久后,阿里跟进了两款通义 Qwen3-4B。 起初,大家以为只是国内大厂对轰,互秀肌肉罢了。 几天后,剧情愈演愈烈,大洋彼岸的 OpenAI 也加入战斗,破天荒开源 gpt-oss-…
-
陈丹琦新作:大模型强化学习的第三条路,8B 小模型超越 GPT-4o
结合 RLHF 与 RLVR 的优势,仅需 8B 参数的小模型便能超越 GPT-4o,并媲美 Claude-3.7-Sonnet。 陈丹琦团队最新研究引发广泛关注。 他们提出了一种名为 RLMT(Reinforcement Learning with Model-rewarded Thinking,…
-
Thinking Machine 新研究刷屏!结合 RL+ 微调优势,小模型训练更具性价比了
thinking %ignore_a_2% 最新研究正在被热议! 创始人、OpenAI 前 CTO Mira Murati 亲自转发后,一众围观大佬开始惊叹其研究价值(截不完、根本截不完): 根据 Mira Murati 的提炼,原来他们提出了一种让小模型更懂专业领域的 LLM(大语言模型)后训练方…