dalle

RLHF与AlphaGo核心技术强强联合，UW/Meta让文本生成能力再上新台阶

在一项最新的研究中，来自 uw 和 meta 的研究者提出了一种新的解码算法，将 alphago 采用的蒙特卡洛树搜索算法（monte-carlo tree search, mcts）应用到经过近端策略优化（proximal policy optimization, ppo）训练的 rlhf 语言模…

程序猿
2025年11月8日 • 用户投稿
7000

关注微信