田渊栋团队新研究:微调

在大家不断升级迭代自家大模型的时候,LLM(大语言模型)对上下文窗口的处理能力,也成为一个重要评估指标。

比如 OpenAI 的 gpt-3.5-turbo 提供 16k token 的上下文窗口选项,AnthropicAI 的更是将 Claude 处理 token 能力提升到 100k。大模型处理上下文窗口是个什么概念,就拿 GPT-4 支持 32k token 来说,这相当于 50 页的文字,意味着在对话或生成文本时,GPT-4 最多可以记住 50 页左右内容。 

一般来讲,大语言模型处理上下文窗口大小的能力是预定好的。例如,Meta AI 发布的 LLaMA 模型,其输入 token 大小必须少于 2048。

然而,在进行长对话、总结长文档或执行长期计划等应用程序中,经常会超过预先设置的上下文窗口限制,因而,能够处理更长上下文窗口的 LLM 更受欢迎。

但这又面临一个新的问题,从头开始训练具有较长上下文窗口的 LLM 需要很大的投入。这自然引出一个疑问:我们能否扩展现有的预训练 LLM 的上下文窗口?

一种直接的方法是对现有的预训练 Transformer 进行微调,以获得更长的上下文窗口。然而,实证结果表明,使用这种方式训练的模型对长上下文窗口的适应速度非常慢。经过 10000 个批次的训练后,有效上下文窗口的增加仍然非常小,仅从 2048 增加到 2560(实验部分的表 4 可以看出)。这表明这种方法在扩展到更长的上下文窗口上效率低下。

本文中,来自 Meta 的研究者引入了位置插值(Position Interpolation,PI)来对某些现有的预训练 LLM(包括 LLaMA)的上下文窗口进行扩展。结果表明,LLaMA 上下文窗口从 2k 扩展到 32k,只需要小于 1000 步的微调

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

论文地址:https://arxiv.org/pdf/2306.15595.pdf

微软文字转语音 微软文字转语音

微软文本转语音,支持选择多种语音风格,可调节语速。

微软文字转语音 0 查看详情 微软文字转语音

该研究的关键思想不是进行外推(extrapolation),而是直接缩小位置索引,使得最大位置索引与预训练阶段的上下文窗口限制相匹配。换句话说,为了容纳更多的输入 token,该研究在相邻的整数位置上插值位置编码,利用了位置编码可以应用于非整数位置的事实,与在训练过的位置之外进行外推相比,后者可能导致灾难性的数值。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究

PI 方法将基于 RoPE(旋转位置编码)的预训练 LLM(如 LLaMA)的上下文窗口大小扩展到最多 32768,只需进行最小的微调(在 1000 个步骤内),这一研究在需要长上下文的各种任务上性能较好,包括检索、语言建模以及从 LLaMA 7B 到 65B 的长文档摘要。与此同时,通过 PI 扩展的模型在其原始上下文窗口内相对保持了较好的质量。

方法

在我们比较熟悉的 LLaMA、ChatGLM-6B、PaLM 等大语言模型中,都有 RoPE 身影,该方法由追一科技苏剑林等人提出,RoPE 通过绝对编码的方式实现了相对位置编码。

虽然 RoPE 中的注意力得分只取决于相对位置,但它的外推性能并不好。特别是,当直接扩展到更大的上下文窗口时,困惑度可能会飙升到非常高的数字 (即 > 10^3)。

本文采用位置插值的方法,其与外推方法的比较如下。由于基函数 ϕ_j 的平滑性,插值更加稳定,不会导致野值。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

 该研究将 RoPE f 替换为 f ′,得到如下公式

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

该研究将在位置编码上的转换称为位置插值。这一步将位置索引从 [0, L′ ) 缩减到 [0, L) ,以匹配计算 RoPE 前的原始索引范围。因此,作为 RoPE 的输入,任意两个 token 之间的最大相对距离已从 L ′ 缩减到 L。通过在扩展前后对位置索引和相对距离的范围进行对齐,减轻了由于上下文窗口扩展而对注意力分数计算产生的影响,这使得模型更容易适应。

值得注意的是,重新缩放位置索引方法不会引入额外的权重,也不会以任何方式修改模型架构。

实验

该研究展示了位置插值可以有效地将上下文窗口扩展到原始大小的 32 倍,并且这种扩展只需进行几百个训练步骤即可完成。

表 1 和表 2 报告了 PI 模型和基线模型在 PG-19 、 Arxiv Math Proof-pile 数据集上的困惑度。结果表明使用 PI 方法扩展的模型在较长的上下文窗口大小下显著改善了困惑度。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究

表 3 报告了在 PG19 数据集上使用 PI 方法,将 LLaMA 7B 模型扩展到 8192 和 16384 上下文窗口大小时的困惑度与微调步数之间的关系。

由结果可得,在没有微调的情况下(步数为 0),模型可以展现出一定的语言建模能力,如将上下文窗口扩展到 8192 时的困惑度小于 20(相比之下,直接外推方法的困惑度大于 10^3)。在 200 个步骤时,模型的困惑度超过了 2048 上下文窗口大小下原始模型的困惑度,表明模型能够有效利用比预训练设置更长的序列进行语言建模。在 1000 个步骤时可以看到模型稳步改进,并取得了更好的困惑度。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

下表表明,通过 PI 扩展的模型在有效上下文窗口大小方面都成功地实现了扩展目标,即仅通过微调 200 个步骤后,有效上下文窗口大小达到最大值,在 7B 和 33B 模型大小以及最高 32768 上下文窗口的情况下保持一致。相比之下,仅通过直接微调扩展的 LLaMA 模型的有效上下文窗口大小仅从 2048 增加到 2560,即使经过 10000 多个步骤的微调,也没有明显加速窗口大小增加的迹象。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

表 5 显示扩展到 8192 的模型在原始基准任务上产生了可比较的结果,而该基准任务是针对更小的上下文窗口设计的,对于 7B 和 33B 模型大小,在基准任务中的退化最多达到 2%。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

表 6 表明,具有 16384 上下文窗口的 PI 模型,可以有效地处理长文本摘要任务。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

以上就是田渊栋团队新研究:微调的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/516267.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 03:22:42
下一篇 2025年11月9日 03:23:57

相关推荐

  • 详细介绍meta标签

    Meta 主要标签 (推荐教程:html视频教程) HTML5的meta标签有三个主要属性,分别是 name 属性,charset 属性和 http-equiv 属性。 Charset 声明当前文档的字符编码: http-equiv 类似http的文件头作用,它可以向浏览器设置一些有用的信息,以帮助…

    2025年12月21日
    000
  • html文档的头部元素有哪些

    html文档的头部元素有: 元素,元素,元素,元素,元素,元素和元素。 文档的头部描述了文档的各种属性和信息,包括文档的标题、在 Web 中的位置以及和其他文档的关系等;而头部元素就是用来定义这些信息。本篇文章就给大家介绍一下html文档的头部元素,让大家了解html文档的头部元素的作用,希望对你们…

    好文分享 2025年12月21日
    000
  • 浅谈关于HTML5头部标签的小知识

    本章给大家介绍关于html5头部标签的小知识。有一定的参考价值,有需要的朋友可以参考一下,希望对你们有所帮助。 meta是html语言head区的一个辅助性标签,meta标签的作用有很多,比如:搜索引擎优化(seo),定义页面使用语言,自动刷新并指向新的页面,实现网页转换时的动态效果,控制页面缓冲,…

    好文分享 2025年12月21日
    000
  • HTML meta标签的作用是什么?html meta标签的使用方法介绍

    本篇文章介绍了html meta标签的作用及其使用的方法,介绍了很多使用的方法,希望大家能够自己把这些代码多练习几遍,解释都在旁边,最后还介绍了html meta标签的几种著名网站的meta设置。 开始我们先说说meta标签的作用: meta标签是HTML标记head区的一个关键标签,它位于HTML…

    好文分享 2025年12月21日
    000
  • HTML中head标签是什么意思?一篇文章教你正确地使用head标签

    本篇文章为大家介绍了什么是html中的head标签,head标签中有哪些元素,看完本篇文章你会对html中的头部标签head了解的更透彻,本文用简单的方法让大家懂得这些标签怎么使用,都会了的话就能更好的使用head标签了, 现在让我们一起阅读本篇文章吧 首先我们要知道什么是HTML中head标签: …

    2025年12月21日
    000
  • HTML中的标签的使用详解

    这篇文章主要介绍了html中的标签的使用,非常不错,具有一定的参考借鉴价值,需要的朋友参考下吧   在我们制作的网页中,要是想让它能够让更多的人去访问,最好的方法就是通过搜索引擎来找到你的网址,于是需要你的网页可以有关键词能够让搜索引擎来识别,于是HTML中的标签就是这个功能,将这个页面的关键信息写…

    好文分享 2025年12月21日
    000
  • html 图像标记 META标签 内联框架 超链接

    这篇文章介绍的内容是html 图像标记 META标签 内联框架 超链接 ,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 1.图像标记 @@##@@ width=” ”宽度  height=” ” 高度  src=“ ”路径地址 alt=“ ” 描述 @@##@@ ps:为了图片显示不…

    好文分享 2025年12月21日
    000
  • html的盒模型详解

    这次给大家带来html的盒模型详解,使用html盒模型的注意事项有哪些,下面就是实战案例,一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素: –生成该盒的元素是否设置了’width’或&#82…

    好文分享 2025年12月21日
    000
  • H5中meta标签及作用

    本文主要和大家分享h5中meta标签及作用,希望能帮助到大家。 H5标准声明,使用 HTML5 doctype,不区分大小写 // 标准的 lang 属性写法 // 声明文档使用的字符编码 // 优先使用 IE 最新版本和 Chrome // 页面描述 // 页面关键词 // 网页作者 // 搜索引…

    好文分享 2025年12月21日
    000
  • html中meta标签及用法详解

    元素可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。本文主要给大家介绍了html中meta标签及用法详解,感兴趣的朋友一起看看吧,希望能帮助到大家。 Html中meta标签 一、meta标签 含义    元素 可提供有关页面的元信息(meta-i…

    好文分享 2025年12月21日
    000
  • HTML的meta viewport属性应该如何使用

    这次给大家带来html的meta viewport属性应该如何使用,使用html的meta viewport属性注意事项有哪些,下面就是实战案例,一起来看一下。 什么是Viewport 手机浏览器是把页面放在一个虚拟的“窗口”(viewport)中,通常这个虚拟的“窗口”(viewport)比屏幕宽…

    好文分享 2025年12月21日
    000
  • HTML的头标签meta如何实现refresh重新定向

    这次给大家带来html的头标签meta如何实现refresh重新定向,html的头标签meta如何实现refresh重新定向的注意事项有哪些,下面就是实战案例,一起来看一下。 对不起。我们已经搬家了。您的 URL 是 http://www.w3school.com.cn 您将在 5 秒内被重定向到新…

    好文分享 2025年12月21日
    000
  • meta的标签有哪些作用

    这次给大家带来meta的标签有哪些作用,使用meta标签的注意事项有哪些,下面就是实战案例,一起来看一下。 您的个人网站即使做得再精彩,在“浩瀚如海”的网络空间中,也如一叶扁舟不易为人发现,如何推广个人网站,人们首先想到的方法无外乎以下几种: ● 在搜索引擎中登录自己的个人网站 ● 在知名网站加入你…

    好文分享 2025年12月21日
    100
  • 怎样操作meta标签中的viewport来控制设备屏幕的css属性

    这次给大家带来怎样操作meta标签中的viewport来控制设备屏幕的css属性,利用meta标签中的viewport来控制设备屏幕的css属性的注意事项有哪些,下面就是实战案例,一起来看一下。 width-viewport的宽度 height-viewport的高度 initial-scale 初…

    好文分享 2025年12月21日
    100
  • 怎样实现meta标签中的viewport来控制设备屏幕的css属性

    这次给大家带来怎样操作meta标签中的viewport来控制设备屏幕的css属性,利用meta标签中的viewport来控制设备屏幕的css属性的注意事项有哪些,下面就是实战案例,一起来看一下。 width-viewport的宽度 height-viewport的高度 initial-scale 初…

    好文分享 2025年12月21日
    000
  • HTML的meta标签用法总结

    meta标签在html中很重要,本文我们将介绍html的meta标签用法总结,希望能帮助到大家大家。 什么是mata标签 元素可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。 标签位于文档的头部,不包含任何内容。 标签的属性定义了与文档相关联的名…

    好文分享 2025年12月21日
    000
  • 怎样使用HTML meta优化网页

    这次给大家带来怎样使用html meta优化网页 ,使用html meta优化网页的注意事项有哪些,下面就是实战案例,一起来看一下。 概要 标签提供关于HTML文档的元数据。元数据不会显示在页面上,但是对于机器是可读的。它可用于浏览器(如何显示内容或重新加载页面),搜索引擎(关键词),或其他 we…

    好文分享 2025年12月21日
    000
  • 怎样用Meta标签代码让360浏览器默认使用极速模式打开网页

    这次给大家带来怎样用meta标签代码让360浏览器默认使用极速模式打开网页,使用meta标签代码让360浏览器默认使用极速模式打开网页的注意事项有哪些,下面就是实战案例,一起来看一下。 一个网站,大量采用了html5和css3,希望用户都以webkit内核打开页面,但是测试却发现360的以ie内核打…

    好文分享 2025年12月21日
    000
  • HTML的meta标签常见用法介绍

    这次给大家带来html的meta标签常见用法介绍,使用html的meta标签的注意事项有哪些,下面就是实战案例,一起来看一下。 什么是mata标签 元素可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。 标签位于文档的头部,不包含任何内容。 标签的…

    好文分享 2025年12月21日
    000
  • HTML中的meta设置方法

    这次给大家带来html中的meta设置方法,html中设置meta的注意事项有哪些,下面就是实战案例,一起来看一下。 立即学习“前端免费学习笔记(深入)”; <!– –> <!– –> <!– –&…

    好文分享 2025年12月21日
    000

发表回复

登录后才能评论
关注微信