ChatGPT 架构师,刚发布了最新研究成果

chatgpt 架构师,刚发布了最新研究成果

距第二篇研究仅过去三天,Thinking Machines 再度发布第三篇技术博客。

本研究由 OpenAI 联合创始人之一 John Schulman 担纲核心作者,公司创始人、前 OpenAI CTO Mira Murati 也第一时间转发支持。

ChatGPT 架构师,刚发布了最新研究成果

新研究聚焦 LoRA 参数高效微调方法,题为《LoRA Without Regret》,深入探讨了 LoRA 在何种条件下可匹敌全量微调(FullFT)的性能,并提出了一套显著降低调参复杂度的简化方案。

当前主流大模型参数规模动辄上万亿,预训练数据高达数十万亿 token,但实际应用中,下游任务通常数据量小、领域特定。

若采用 FullFT 更新全部参数,计算资源消耗巨大,极不经济。

作为参数高效微调(PEFT)的核心技术,LoRA 通过引入低秩矩阵 A 和 B(参数量远少于原始权重)来捕捉微调增量,但长期存在争议:其性能是否真能追平 FullFT?

John Schulman 与 Thinking Machines 团队给出了明确答案:只要把握关键细节,LoRA 不仅能达到与 FullFT 相同的样本效率,最终性能也完全一致。

以下是三大核心发现:

LoRA 最优学习率约为 FullFT 的 10 倍

研究团队通过系统性实验总结出三点结论:

在中小规模数据集上,LoRA 性能与 FullFT 相当;

LoRA 应用于所有层效果最佳,而非仅注意力层;

LoRA 的最优学习率稳定在 FullFT 的 10 倍左右。

首先,在中小数据集场景下,LoRA 完全可与 FullFT 正面抗衡。

团队使用 Llama 3、Qwen3 等模型,在指令跟随导向的 Tulu3 数据集和推理密集型的 OpenThoughts3 数据集上进行测试。

结果显示,高秩 LoRA(如秩 512)的学习曲线与 FullFT 几乎完全重合,损失值随训练步数呈对数线性下降;

仅当数据集规模远超 LoRA 容量时,其效率才略有下降,而此类情况在常规后训练中极为罕见。

ChatGPT 架构师,刚发布了最新研究成果

更值得注意的是,在 MATH、GSM 等数学推理类强化学习任务中,即便将 LoRA 秩降至 1,其表现仍与 FullFT 持平。

ChatGPT 架构师,刚发布了最新研究成果

其背后原因在于强化学习的信息特性:每轮训练仅需通过 scalar 优势函数获取 O(1) 比特信息,而秩 1 LoRA 的参数容量已绰绰有余,甚至存在冗余。

ChatGPT 架构师,刚发布了最新研究成果

其次,在 LoRA 层的选择上,全层覆盖优于局部应用,打破“仅注意力层有效”的传统认知。

以往许多实践倾向于只在注意力模块部署 LoRA,但本次实验结果颠覆了这一做法。

仅作用于注意力层的 LoRA 表现明显落后,即便提升其秩(如秩 256)以匹配 MLP 层 LoRA(秩 128)的参数量,性能差距依然显著;

ChatGPT 架构师,刚发布了最新研究成果

而当 LoRA 覆盖所有层,尤其是参数占比最高的 MLP 层与 MoE 层时,性能大幅提升。甚至单独在 MLP 层应用 LoRA,效果已接近“MLP + 注意力”双层配置。

ChatGPT 架构师,刚发布了最新研究成果

ChatGPT ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

ChatGPT 211 查看详情 ChatGPT

根本逻辑在于:模型梯度主要由参数量大的层主导,只有实现全层覆盖,LoRA 的优化动态才能逼近 FullFT,从而释放全部潜力。

最后,针对 LoRA 超参数调试困难的问题,研究团队提出了大幅简化的调参策略。

许多用户因调参复杂而却步,但研究发现,LoRA 的最优学习率存在清晰规律——约为 FullFT 的 10 倍。(目前为实验观察,理论解释仍在完善中)

该比例在 14 个不同模型于 Tulu3 数据集上的测试中高度稳定。

ChatGPT 架构师,刚发布了最新研究成果

同时,得益于 1/r 缩放因子的作用,不同秩下的最优学习率差异极小。在秩 4 至 512 范围内,变化不足 2 倍;在短期任务中,秩的影响几乎可忽略。

ChatGPT 架构师,刚发布了最新研究成果

更具实用价值的是,LoRA 的 4 个潜在超参数中,有 2 个为冗余项。实际调参只需关注“初始更新规模”与“A 矩阵偏离初始状态的步数”两个维度。

此举直接将调参工作量减少一半。

ChatGPT 架构师,刚发布了最新研究成果

John Schulman:从 OpenAI 到 Thinking Machines

本研究由 OpenAI 联创、曾短暂加入 Anthropic 后迅速转投 Thinking Machines 的 John Schulman 主导。

他博士毕业于加州大学伯克利分校,师从强化学习泰斗 Pieter Abbeel。

在 OpenAI 任职九年期间,他主导了 GPT-3.5、GPT-4 到 GPT-4o 的对齐与后训练工作,被业界誉为“ChatGPT 架构师”。

Google Scholar 显示,其论文引用近 14 万次。

其中最具影响力的是《Proximal policy optimization algorithms》,PPO 算法已成为 RLHF 中强化学习的核心组件。

ChatGPT 架构师,刚发布了最新研究成果

离开 OpenAI 时,Schulman 表示希望回归核心技术研发。这一愿景促使他加入 Thinking Machines,现以首席科学家身份开启新篇章。

参考链接:

[ 1 ] https://www.php.cn/link/991a05e06918a7f3d363117f9692e9c9

[ 2 ] https://www.php.cn/link/6fc838626a3f3a11ad0c84dd302d6a8a

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见

以上就是ChatGPT 架构师,刚发布了最新研究成果的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/266053.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
移动解谜艺术:空间重构的智慧钥匙
上一篇 2025年11月4日 10:35:23
怎么查看linux是32位还是64位
下一篇 2025年11月4日 10:35:33

相关推荐

  • 修复Django电商项目中AJAX过滤产品列表图片不显示问题

    在Django电商项目中,当使用AJAX动态加载过滤后的产品列表时,常遇到图片无法正常显示的问题。这通常是由于前端模板中图片加载方式(如data-setbg属性结合JavaScript库)与AJAX动态内容更新机制不兼容所致。解决方案是直接在AJAX返回的HTML中使用标准的标签来渲染图片,确保浏览…

    2026年5月10日
    000
  • Matplotlib 地图中多类型图例的创建与优化

    Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化

    本教程旨在解决matplotlib地图可视化中,如何在一个图例中同时展示颜色块(如区域分类)和自定义标记(如特定兴趣点)的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时,如何利用`matplotlib.lines.line2d`创建标记图例句柄,并将其与颜色块图例句柄合并,从而生成一…

    2026年5月10日 用户投稿
    100
  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

    SFINAE 是“替换失败不是错误”的原则,指模板实例化时若参数替换导致错误,只要存在其他合法候选,编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景,如通过 decltype 或 enable_if 控制函数重载,实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

    2026年5月10日
    000
  • Golang gRPC流式请求异常处理

    在Golang的gRPC流式通信中,必须通过context.Context处理异常。应监听上下文取消或超时,及时释放资源,设置合理超时,避免连接长时间挂起,并在goroutine中通过context控制生命周期。 在使用 Golang 和 gRPC 实现流式通信时,异常处理是确保服务健壮性的关键部分…

    2026年5月10日
    000
  • Go语言mgo查询构建:深入理解bson.M与日期范围查询的正确实践

    本文旨在解决go语言mgo库中构建复杂查询时,特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性,解释为何直接索引`interface{}`会导致“invalid operation”错误,并提供一种推荐的、结构清晰的代码重构方案,以确保查询条件能够正确…

    2026年5月10日
    100
  • vscode上怎么运行html_vscode上运行html步骤【指南】

    首先保存文件为.html格式,再通过浏览器或Live Server插件打开预览;推荐安装Live Server实现本地服务器运行与实时刷新,提升开发体验。 在 VS Code 上运行 HTML 文件并不需要复杂的配置,只需几个简单步骤即可预览页面效果。VS Code 本身是一个代码编辑器,不直接运行…

    2026年5月10日
    100
  • Golang goroutine与channel调试技巧

    使用go run -race检测数据竞争,结合runtime.NumGoroutine监控协程数量,通过pprof分析阻塞调用栈,利用select超时避免永久阻塞,有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心,但它们也带来了调试上…

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 《魔兽世界》将于6月11日开启国服回归技术测试

    《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试

    《%ign%ignore_a_1%re_a_1%》官方宣布,将于6月11日开启国服回归技术测试,时间为7天,并称可以在6月内正式开服,玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端,技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情 以上就是《…

    2026年5月10日 用户投稿
    200
  • 如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

    HTML表单通过标签构建,包含action和method属性定义数据提交目标与方式,常用input类型如text、password、email等适配不同输入需求,配合label、required、placeholder提升可用性,结合textarea、select、button等控件实现完整交互,是…

    2026年5月10日
    100
  • 创建指定大小并填充特定数据的Golang文件教程

    本文将介绍如何使用Golang创建一个指定大小的文件,并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件,从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件,并将其填充为全零数据。掌握这些方法,可以方便地在例如日志系统或磁盘队列等场景中,预先创建测试文件或初始…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • 使用 WebCodecs VideoDecoder 实现精确逐帧回退

    本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时,实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳,可以避免渲染中间帧,从而提高用户体验。本文将提供详细的解决方案和示例代码,帮助开发者实现精确的视频帧控制。 在使用 WebCodecs VideoDecod…

    2026年5月10日
    000
  • 如何插入查询结果数据_SQL插入Select查询结果方法

    如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法

    使用INSERT INTO…SELECT语句可高效插入数据,通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复;表结构不一致时可通过别名、类型转换、默认值或计算字段处理;结合存储过程可提升可维护性,支持参数化与动态SQL。 将查询结果数据插入到另一个表中,可以…

    2026年5月10日 用户投稿
    000
  • Discord.py 交互按钮超时与持久化解决方案

    本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图(View)的超时机制,并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案,确保您的机器人交互功能稳定可靠,即…

    2026年5月10日
    000
  • Debian Copilot的社区活跃度如何

    debian copilot是codeberg社区维护的ai助手,旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据,但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况: Debian拥有详尽的…

    2026年5月10日
    000
  • JavaScript 动态菜单点击高亮效果实现教程

    本教程详细介绍了如何使用 JavaScript 实现动态菜单的点击高亮功能。通过事件委托和状态管理,当用户点击菜单项时,被点击项会高亮显示(绿色),同时其他菜单项恢复默认样式(白色)。这种方法避免了不必要的DOM操作,提高了性能和代码可维护性,确保了无论点击方向如何,功能都能稳定运行。 动态菜单高亮…

    2026年5月10日
    200
  • c++如何实现UDP通信_c++基于UDP的网络通信示例

    UDP通信基于套接字实现,适用于实时性要求高的场景。1. 流程包括创建套接字、绑定地址(接收方)、发送(sendto)与接收(recvfrom)数据、关闭套接字;2. 服务端监听指定端口,接收客户端消息并回传;3. 客户端发送消息至服务端并接收响应;4. 跨平台需处理Winsock初始化与库链接,编…

    2026年5月10日
    100

发表回复

登录后才能评论
关注微信