田渊栋团队新研究：微调

程序猿 • 2025年11月9日 03:23:18 • 科技 • 阅读 0

在大家不断升级迭代自家大模型的时候，LLM（大语言模型）对上下文窗口的处理能力，也成为一个重要评估指标。

比如 OpenAI 的 gpt-3.5-turbo 提供 16k token 的上下文窗口选项，AnthropicAI 的更是将 Claude 处理 token 能力提升到 100k。大模型处理上下文窗口是个什么概念，就拿 GPT-4 支持 32k token 来说，这相当于 50 页的文字，意味着在对话或生成文本时，GPT-4 最多可以记住 50 页左右内容。

一般来讲，大语言模型处理上下文窗口大小的能力是预定好的。例如，Meta AI 发布的 LLaMA 模型，其输入 token 大小必须少于 2048。

然而，在进行长对话、总结长文档或执行长期计划等应用程序中，经常会超过预先设置的上下文窗口限制，因而，能够处理更长上下文窗口的 LLM 更受欢迎。

但这又面临一个新的问题，从头开始训练具有较长上下文窗口的 LLM 需要很大的投入。这自然引出一个疑问：我们能否扩展现有的预训练 LLM 的上下文窗口？

一种直接的方法是对现有的预训练 Transformer 进行微调，以获得更长的上下文窗口。然而，实证结果表明，使用这种方式训练的模型对长上下文窗口的适应速度非常慢。经过 10000 个批次的训练后，有效上下文窗口的增加仍然非常小，仅从 2048 增加到 2560（实验部分的表 4 可以看出）。这表明这种方法在扩展到更长的上下文窗口上效率低下。

本文中，来自 Meta 的研究者引入了位置插值（Position Interpolation，PI）来对某些现有的预训练 LLM（包括 LLaMA）的上下文窗口进行扩展。结果表明，LLaMA 上下文窗口从 2k 扩展到 32k，只需要小于 1000 步的微调。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

论文地址：https://arxiv.org/pdf/2306.15595.pdf

微软文字转语音

微软文本转语音，支持选择多种语音风格，可调节语速。

0 查看详情

该研究的关键思想不是进行外推（extrapolation），而是直接缩小位置索引，使得最大位置索引与预训练阶段的上下文窗口限制相匹配。换句话说，为了容纳更多的输入 token，该研究在相邻的整数位置上插值位置编码，利用了位置编码可以应用于非整数位置的事实，与在训练过的位置之外进行外推相比，后者可能导致灾难性的数值。

PI 方法将基于 RoPE（旋转位置编码）的预训练 LLM（如 LLaMA）的上下文窗口大小扩展到最多 32768，只需进行最小的微调（在 1000 个步骤内），这一研究在需要长上下文的各种任务上性能较好，包括检索、语言建模以及从 LLaMA 7B 到 65B 的长文档摘要。与此同时，通过 PI 扩展的模型在其原始上下文窗口内相对保持了较好的质量。

方法

在我们比较熟悉的 LLaMA、ChatGLM-6B、PaLM 等大语言模型中，都有 RoPE 身影，该方法由追一科技苏剑林等人提出，RoPE 通过绝对编码的方式实现了相对位置编码。

虽然 RoPE 中的注意力得分只取决于相对位置，但它的外推性能并不好。特别是，当直接扩展到更大的上下文窗口时，困惑度可能会飙升到非常高的数字 (即 > 10^3)。

本文采用位置插值的方法，其与外推方法的比较如下。由于基函数 ϕ_j 的平滑性，插值更加稳定，不会导致野值。

图片

该研究将 RoPE f 替换为 f ′，得到如下公式

图片

该研究将在位置编码上的转换称为位置插值。这一步将位置索引从 [0, L′ ) 缩减到 [0, L) ，以匹配计算 RoPE 前的原始索引范围。因此，作为 RoPE 的输入，任意两个 token 之间的最大相对距离已从 L ′ 缩减到 L。通过在扩展前后对位置索引和相对距离的范围进行对齐，减轻了由于上下文窗口扩展而对注意力分数计算产生的影响，这使得模型更容易适应。

值得注意的是，重新缩放位置索引方法不会引入额外的权重，也不会以任何方式修改模型架构。

实验

该研究展示了位置插值可以有效地将上下文窗口扩展到原始大小的 32 倍，并且这种扩展只需进行几百个训练步骤即可完成。

表 1 和表 2 报告了 PI 模型和基线模型在 PG-19 、 Arxiv Math Proof-pile 数据集上的困惑度。结果表明使用 PI 方法扩展的模型在较长的上下文窗口大小下显著改善了困惑度。

表 3 报告了在 PG19 数据集上使用 PI 方法，将 LLaMA 7B 模型扩展到 8192 和 16384 上下文窗口大小时的困惑度与微调步数之间的关系。

由结果可得，在没有微调的情况下（步数为 0），模型可以展现出一定的语言建模能力，如将上下文窗口扩展到 8192 时的困惑度小于 20（相比之下，直接外推方法的困惑度大于 10^3）。在 200 个步骤时，模型的困惑度超过了 2048 上下文窗口大小下原始模型的困惑度，表明模型能够有效利用比预训练设置更长的序列进行语言建模。在 1000 个步骤时可以看到模型稳步改进，并取得了更好的困惑度。

图片

下表表明，通过 PI 扩展的模型在有效上下文窗口大小方面都成功地实现了扩展目标，即仅通过微调 200 个步骤后，有效上下文窗口大小达到最大值，在 7B 和 33B 模型大小以及最高 32768 上下文窗口的情况下保持一致。相比之下，仅通过直接微调扩展的 LLaMA 模型的有效上下文窗口大小仅从 2048 增加到 2560，即使经过 10000 多个步骤的微调，也没有明显加速窗口大小增加的迹象。

图片

表 5 显示扩展到 8192 的模型在原始基准任务上产生了可比较的结果，而该基准任务是针对更小的上下文窗口设计的，对于 7B 和 33B 模型大小，在基准任务中的退化最多达到 2%。

图片

表 6 表明，具有 16384 上下文窗口的 PI 模型，可以有效地处理长文本摘要任务。

图片

以上就是田渊栋团队新研究：微调的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/516267.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Unity发布Sentis和Muse AI工具，助力创作游戏和3D内容

上一篇 2025年11月9日 03:22:42

谷歌AudioPaLM实现「文本+音频」双模态解决，说听两用大模型

下一篇 2025年11月9日 03:23:57

好文分享

详细介绍meta标签

Meta 主要标签（推荐教程：html视频教程） HTML5的meta标签有三个主要属性，分别是 name 属性，charset 属性和 http-equiv 属性。 Charset 声明当前文档的字符编码： http-equiv 类似http的文件头作用，它可以向浏览器设置一些有用的信息，以帮助…

程序猿
2025年12月21日
0000
html文档的头部元素有哪些

html文档的头部元素有：元素，元素，元素，元素，元素，元素和元素。文档的头部描述了文档的各种属性和信息，包括文档的标题、在 Web 中的位置以及和其他文档的关系等；而头部元素就是用来定义这些信息。本篇文章就给大家介绍一下html文档的头部元素，让大家了解html文档的头部元素的作用，希望对你们…

程序猿
好文分享 2025年12月21日
0000
浅谈关于HTML5头部标签的小知识

本章给大家介绍关于html5头部标签的小知识。有一定的参考价值，有需要的朋友可以参考一下，希望对你们有所帮助。 meta是html语言head区的一个辅助性标签，meta标签的作用有很多，比如：搜索引擎优化（seo），定义页面使用语言，自动刷新并指向新的页面，实现网页转换时的动态效果，控制页面缓冲，…

程序猿
好文分享 2025年12月21日
0000
HTML meta标签的作用是什么？html meta标签的使用方法介绍

本篇文章介绍了html meta标签的作用及其使用的方法，介绍了很多使用的方法，希望大家能够自己把这些代码多练习几遍，解释都在旁边，最后还介绍了html meta标签的几种著名网站的meta设置。开始我们先说说meta标签的作用： meta标签是HTML标记head区的一个关键标签，它位于HTML…

程序猿
好文分享 2025年12月21日
0000
好文分享

HTML中head标签是什么意思？一篇文章教你正确地使用head标签

本篇文章为大家介绍了什么是html中的head标签，head标签中有哪些元素，看完本篇文章你会对html中的头部标签head了解的更透彻，本文用简单的方法让大家懂得这些标签怎么使用，都会了的话就能更好的使用head标签了，现在让我们一起阅读本篇文章吧首先我们要知道什么是HTML中head标签： …

程序猿
2025年12月21日
0000
HTML中的标签的使用详解

这篇文章主要介绍了html中的标签的使用，非常不错，具有一定的参考借鉴价值，需要的朋友参考下吧　　在我们制作的网页中，要是想让它能够让更多的人去访问，最好的方法就是通过搜索引擎来找到你的网址，于是需要你的网页可以有关键词能够让搜索引擎来识别，于是HTML中的标签就是这个功能，将这个页面的关键信息写…

程序猿
好文分享 2025年12月21日
0000
html 图像标记 META标签内联框架超链接

这篇文章介绍的内容是html 图像标记 META标签内联框架超链接，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下 1.图像标记 @@##@@ width=” ”宽度 height=” ” 高度 src=“ ”路径地址 alt=“ ” 描述 @@##@@ ps：为了图片显示不…

程序猿
好文分享 2025年12月21日
0000
html的盒模型详解

这次给大家带来html的盒模型详解，使用html盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素： –生成该盒的元素是否设置了’width’或&#82…

程序猿
好文分享 2025年12月21日
0000
H5中meta标签及作用

本文主要和大家分享h5中meta标签及作用，希望能帮助到大家。 H5标准声明，使用 HTML5 doctype，不区分大小写 // 标准的 lang 属性写法 // 声明文档使用的字符编码 // 优先使用 IE 最新版本和 Chrome // 页面描述 // 页面关键词 // 网页作者 // 搜索引…

程序猿
好文分享 2025年12月21日
0000
html中meta标签及用法详解

元素可提供有关页面的元信息（meta-information），比如针对搜索引擎和更新频度的描述和关键词。本文主要给大家介绍了html中meta标签及用法详解，感兴趣的朋友一起看看吧，希望能帮助到大家。 Html中meta标签一、meta标签含义　　元素可提供有关页面的元信息（meta-i…

程序猿
好文分享 2025年12月21日
0000
HTML的meta viewport属性应该如何使用

这次给大家带来html的meta viewport属性应该如何使用，使用html的meta viewport属性注意事项有哪些，下面就是实战案例，一起来看一下。什么是Viewport 手机浏览器是把页面放在一个虚拟的“窗口”（viewport）中，通常这个虚拟的“窗口”（viewport）比屏幕宽…

程序猿
好文分享 2025年12月21日
0000
HTML的头标签meta如何实现refresh重新定向

这次给大家带来html的头标签meta如何实现refresh重新定向，html的头标签meta如何实现refresh重新定向的注意事项有哪些，下面就是实战案例，一起来看一下。对不起。我们已经搬家了。您的 URL 是 http://www.w3school.com.cn 您将在 5 秒内被重定向到新…

程序猿
好文分享 2025年12月21日
0000
meta的标签有哪些作用

这次给大家带来meta的标签有哪些作用，使用meta标签的注意事项有哪些，下面就是实战案例，一起来看一下。您的个人网站即使做得再精彩，在“浩瀚如海”的网络空间中，也如一叶扁舟不易为人发现，如何推广个人网站，人们首先想到的方法无外乎以下几种： ●　在搜索引擎中登录自己的个人网站 ●　在知名网站加入你…

程序猿
好文分享 2025年12月21日
1000
怎样操作meta标签中的viewport来控制设备屏幕的css属性

这次给大家带来怎样操作meta标签中的viewport来控制设备屏幕的css属性，利用meta标签中的viewport来控制设备屏幕的css属性的注意事项有哪些，下面就是实战案例，一起来看一下。 width-viewport的宽度 height-viewport的高度 initial-scale 初…

程序猿
好文分享 2025年12月21日
1000
怎样实现meta标签中的viewport来控制设备屏幕的css属性

这次给大家带来怎样操作meta标签中的viewport来控制设备屏幕的css属性，利用meta标签中的viewport来控制设备屏幕的css属性的注意事项有哪些，下面就是实战案例，一起来看一下。 width-viewport的宽度 height-viewport的高度 initial-scale 初…

程序猿
好文分享 2025年12月21日
0000
HTML的meta标签用法总结

meta标签在html中很重要，本文我们将介绍html的meta标签用法总结，希望能帮助到大家大家。什么是mata标签元素可提供有关页面的元信息（meta-information），比如针对搜索引擎和更新频度的描述和关键词。标签位于文档的头部，不包含任何内容。标签的属性定义了与文档相关联的名…

程序猿
好文分享 2025年12月21日
0000
怎样使用HTML meta优化网页

这次给大家带来怎样使用html meta优化网页，使用html meta优化网页的注意事项有哪些，下面就是实战案例，一起来看一下。概要 标签提供关于HTML文档的元数据。元数据不会显示在页面上，但是对于机器是可读的。它可用于浏览器（如何显示内容或重新加载页面），搜索引擎（关键词），或其他 we…

程序猿
好文分享 2025年12月21日
0000
怎样用Meta标签代码让360浏览器默认使用极速模式打开网页

这次给大家带来怎样用meta标签代码让360浏览器默认使用极速模式打开网页，使用meta标签代码让360浏览器默认使用极速模式打开网页的注意事项有哪些，下面就是实战案例，一起来看一下。一个网站，大量采用了html5和css3，希望用户都以webkit内核打开页面，但是测试却发现360的以ie内核打…

程序猿
好文分享 2025年12月21日
0000
HTML的meta标签常见用法介绍

这次给大家带来html的meta标签常见用法介绍，使用html的meta标签的注意事项有哪些，下面就是实战案例，一起来看一下。什么是mata标签元素可提供有关页面的元信息（meta-information），比如针对搜索引擎和更新频度的描述和关键词。标签位于文档的头部，不包含任何内容。标签的…

程序猿
好文分享 2025年12月21日
0000
HTML中的meta设置方法

这次给大家带来html中的meta设置方法，html中设置meta的注意事项有哪些，下面就是实战案例，一起来看一下。立即学习“前端免费学习笔记（深入）”； <!– –> <!– –> <!– –&…

程序猿
好文分享 2025年12月21日
0000

发表回复

登录后才能评论

田渊栋团队新研究：微调

方法

实验

关于作者

相关推荐

发表回复