o1

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

上海交大、上海ai lab和港中文大学的研究人员推出visual-rft（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（lvlm）性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调（rft）范式相结合，成功地将这一方法…

程序猿
2025年12月3日 • 用户投稿
1000
SOTA 大模型遇上加密数据评测：Qwen3 未破 10%，o1 也栽了

大语言模型面对加密数据，即便最新的qwen3也会感到压力！尽管当下各类推理模型在多种基准测试中表现优异，但在密码学这样对逻辑严谨性和细节准确性要求极高的专业领域，模型的推理能力还有待深入挖掘。密码学不仅要求模型具备高级数学运算能力和严密的逻辑推理链，还需要其能够精准辨识复杂加密模式中的潜在规律；…

程序猿
2025年11月17日 • 用户投稿
0000
Jason Wei 也被小扎带走：思维链开创者、o1 系列奠基人！这次真挖到 OpenAI 大动脉了

这次可真是实实在在地触动了 openai 的核心命脉。 Jason Wei，作为思维链的首创者以及 o1 系列模型的重要推手，据传已被扎克伯格招揽，即将转投 Meta 门下。这一消息最早由《连线》杂志的 Kylie 爆出，并得到了内部人士的确认。 Kylie 同时透露，Jason Wei 在 Op…

程序猿
2025年11月15日 • 用户投稿
1000

关注微信