羊驼家族大模型集体进化！32k上下文追平GPT-4，田渊栋团队出品

程序猿 • 2025年11月9日 03:34:21 • 科技 • 阅读 0

开源羊驼大模型llama上下文追平gpt-4，只需要一个简单改动！

Meta AI这篇刚刚提交的论文表示，LLaMA上下文窗口从2k扩展到32k后只需要小于1000步的微调。

与预训练相比，成本忽略不计。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

扩展上下文窗口，就意味着AI的“工作记忆”容量增加，具体来说可以：

支持更多轮对话，减少遗忘现象，如更稳定的角色扮演输入更多资料完成更复杂的任务，如一次处理更长文档或多篇文档

更重要的意义在于，所有基于LLaMA的羊驼大模型家族岂不是可以低成本采用此方法，集体进化？

羊驼是目前综合能力最强的开源基础模型，已经衍生出不少完全开源可商用大模型和垂直行业模型。

论文通信作者田渊栋也激动地在朋友圈分享这一新进展。

基于RoPE的大模型都能用

新方法名为位置插值（Position Interpolation），对使用RoPE（旋转位置编码）的大模型都适用。

RoPE早在2021年就由追一科技团队提出，到现在已成为大模型最常见的位置编码方法之一。

但在此架构下直接使用外推法（Extrapolation）扩展上下文窗口，会完全破坏自注意力机制。

具体来说，超出预训练上下文长度之外的部分，会使模型困惑度（perplexity）飙升至和未经训练的模型相当。

新方法改成线性地缩小位置索引，扩展前后位置索引和相对距离的范围对齐。

用图表现二者的区别更加直观。

实验结果显示，新方法对从7B到65B的LLaMA大模型都有效。

在长序列语言建模（Long Sequence Language Modeling）、密钥检索（Passkey Retrieval）、长文档摘要（Long Document Summarization）中性能都没有明显下降。

除了实验之外，论文附录中也给出了对新方法的详细证明。

可图大模型

可图大模型（Kolors）是快手大模型团队自研打造的文生图AI大模型

32 查看详情

Three More Thing

上下文窗口曾经是开源大模型与商业大模型之间一个重要差距。

比如OpenAI的GPT-3.5最高支持16k，GPT-4支持32k，AnthropicAI的Claude更是高达100k。

与此同时许多开源大模型如LLaMA和Falcon还停留在2k。

现在，Meta AI的新成果直接把这一差距抹平了。

扩展上下文窗口也是近期大模型研究的焦点之一，除了位置插值方法之外，还有很多尝试引起业界关注。

1、开发者kaiokendev在一篇技术博客中探索了一种将LLaMa上下文窗口扩展到8k的方法。

2、数据安全公司Soveren机器学习负责人Galina Alperovich在一篇文章中总结了扩展上下文窗口的6个技巧。

3、来自Mila、IBM等机构的团队还在一篇论文中尝试了在Transformer中完全去掉位置编码的方法。

有需要的小伙伴可以点击下方链接查看～

Meta论文：https://www.php.cn/link/0bdf2c1f053650715e1f0c725d754b96

Extending Context is Hard…but not Impossiblehttps://www.php.cn/link/9659078925b57e621eb3f9ef19773ac3

The Secret Sauce behind 100K context window in LLMshttps://www.php.cn/link/09a630e07af043e4cae879dd60db1cac

无位置编码论文https://www.php.cn/link/fb6c84779f12283a81d739d8f088fc12

以上就是羊驼家族大模型集体进化！32k上下文追平GPT-4，田渊栋团队出品的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/516709.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

人工智能进入绿植界，智能庭院市场初具规模

上一篇 2025年11月9日 03:33:44

苹果在韩举办首届中小企业智能制造论坛，加速推动工业4.0发展

下一篇 2025年11月9日 03:35:26

好文分享

javascript的机器学习如何入门_有哪些可用的JavaScript库

JavaScript适合浏览器端轻量推理与教学，不宜训练大模型；推荐从线性回归、KNN等简单任务入手，优先掌握张量操作、模型流程及Chrome调试技巧。 JavaScript 做机器学习确实可行，但得明确一点：它不适合训练大型模型，更适合在浏览器端做轻量推理、数据预处理、教学演示或与 Web 应用集…

程序猿
2025年12月21日
0000
好文分享

如何构建一个支持AI辅助代码生成的开发工具？

答案是构建AI辅助开发工具需聚焦开发者真实痛点，通过代码上下文感知引擎理解语义，结合本地与云端推理平衡速度与质量，强化安全隐私保护，并深度集成主流IDE实现反馈闭环，让AI成为响应快、理解准、可信赖的编程搭档。构建一个支持AI辅助代码生成的开发工具，核心在于将AI能力无缝集成到开发者的工作流中，提…

程序猿
2025年12月20日
0000
好文分享

JavaScript中的Web Assembly（WASM）带来了哪些性能突破？

WASM通过接近原生的执行速度、更小的二进制体积和跨平台能力，显著提升Web性能；它与JavaScript互补，使浏览器能运行AutoCAD、Figma等重型应用，并支持4K视频处理、大模型训练等复杂任务，推动Web向桌面级体验演进。 WebAssembly（WASM）为JavaScript生态带来…

程序猿
2025年12月20日
0000
好文分享

人工智能工具市场

AIprophetic.com 网站文章列表： 2025年: 2025-01-24: 人工智能工具市场概览 (https://www.php.cn/link/1c52486ff0b2a44fbfefeb15d21f53ae)2025-01-24: ChatGPT 故障排除及替代方案 (https:/…

程序猿
2025年12月19日
0000
代码异味 – 非命令式函数名称

清晰的函数命名：避免歧义，提升代码可读性简而言之：含糊不清的函数名会隐藏其功能，令读者困惑。请使用具有描述性、面向动作的名称。问题函数用途不明确认知负担增加上下文误导可读性降低协作困难功能隐藏解决方案使用面向动作的动词使用描述性名称反映函数目的避免通用术语提供有意义的上下文明确表达单一职责…

程序猿
2025年12月19日 • 好文分享
0000
克劳德·十四行诗 vs GPT-4o

本案例研究对claude 3.5 sonnet和gpt-4o两种人工智能模型进行了深入比较，涵盖性能、定价和具体应用场景，并结合社区反馈、基准测试和实际使用经验。 Claude 3.5 Sonnet：智能且人性化 Claude 3.5 Sonnet是什么？ Claude 3.5 Sonnet是Ant…

程序猿
2025年12月19日 • 好文分享
0000
好文分享

轨道：太阳系之旅

去年十月，Masons团队参与了2024年NASA Space Apps Cairo黑客马拉松，并开发了一个令人振奋的项目——Orbit。Orbit是一个交互式3D网页应用，能够模拟太阳系并追踪近地天体（NEO）。它基于Next.js、Three.js和Golang后端构建，旨在提供宇宙的实时信息，…

程序猿
2025年12月19日
0000
好文分享

自写 Lang 图状态

第一人工智能响应：输出：感谢您伸出援手，.我很乐意为您提供帮助，但我想确保我完全理解您的需求。您能否提供有关您正在寻找的内容的更多详细信息？您分享的信息越多，我就越能提供帮助！我很乐意尽我所能地帮助你。您想进一步探索某个特定领域吗？您的意见将帮助我根据您的具体需求定制我的帮助。我完全致力于让您的体…

程序猿
2025年12月19日
0000
好文分享

lambda演算的数学

你认为人类发现了还是发明了计算？我倾向于发现，因为图灵机和丘奇的 Lambda 微积分在 1936 年彼此独立地形式化，但两者也都具有普遍的表达能力（允许你计算一切）。非常不同，但 100% 等效。我不是在谈论硬件计算机的发明，由于电子电路及其晶体管，它可以采取各种形式并普遍实现这些概念。我在这…

程序猿
2025年12月19日
1000
好文分享

LangChain本地部署Llama模型：构建离线AI应用的详细教程

本教程旨在指导用户如何利用langchain框架结合本地llama兼容模型，无需注册、api密钥或外部服务，快速搭建一个用于测试的离线聊天机器人。文章将详细介绍模型下载、llama.cpp集成以及langchain代码实现，帮助开发者在本地环境中高效运行大型语言模型，实现隐私保护和成本控制。理解本…

程序猿
2025年12月15日
0000
好文分享

优化XGBoost海量数据加载策略：兼顾内存效率与并发读取

本文旨在解决使用pandas和多进程读取海量csv文件进行xgboost训练时遇到的内存瓶颈。核心策略包括利用xgboost的dmatrix外部内存机制处理超大数据集，以及优化pandas数据加载流程，具体涉及将i/o密集型任务切换至线程池执行器，并采用一次性批量拼接dataframe以提高效率并降…

程序猿
2025年12月15日
0000
好文分享

Llama模型微调：AutoTokenizer加载Repo ID错误解析与修正

本教程旨在解决llama 7b模型微调中常见的`hfvalidationerror`，该错误通常源于`autotokenizer.from_pretrained`方法接收了模型对象而非预期的字符串仓库id。文章将详细阐述这一错误机制，并提供正确的tokenizer加载代码示例，强调应始终使用原始模型…

程序猿
2025年12月14日
0000
好文分享

基于Schema文件实现无数据库连接的SQL语句生成

本文探讨了在不直接连接数据库的情况下，如何利用数据库schema文件生成sql语句的方法。我们将重点介绍通过提供详细的数据库概览信息给大型语言模型（llm），实现基于schema的sql查询生成，从而避免实际数据库连接，提升安全性和灵活性。内容涵盖了如何准备schema信息以及其在llm驱动的sql…

程序猿
2025年12月14日
0000
好文分享

如何优化ChromaDB检索响应的完整性

在使用Langchain结合ChromaDB构建基于文档的问答系统时，用户有时会遇到检索到的响应不完整的情况，尤其是在处理大型或复杂PDF文档时。这通常不是ChromaDB本身的问题，而是文档处理、检索策略或问答链配置不当导致的。本文将详细介绍如何通过优化文档分块、调整检索器参数以及理解问答链机制来…

程序猿
2025年12月14日
0000
好文分享

PyTorch模型导出ONNX：在无PyTorch环境中高效推理

本文介绍如何在不依赖PyTorch的环境中部署和运行PyTorch训练的模型。针对软件依赖限制，核心方案是利用PyTorch的ONNX导出功能，将模型转换为通用ONNX格式。这使得模型能在轻量级运行时（如ONNX Runtime）中高效执行推理，从而避免在部署环境中安装庞大的PyTorch库，实现模…

程序猿
2025年12月14日
0000
好文分享

Copilot如何高效调用大型语言模型并避免资源浪费？

Copilot：高效利用大型语言模型的秘诀 Copilot强大的代码补全和智能提示功能，得益于其对大型语言模型（如Claude、Gemini和GPT）的巧妙调用。本文将揭秘Copilot如何高效地与这些模型交互，避免资源过度消耗。精细化的提示词策略 Copilot并非简单地将所有信息一股脑地塞给模…

程序猿
2025年12月13日
0000
好文分享

python中的LLM函数逐步指南

本指南将指导您如何使用 Python 和 Claude 实现函数调用，并提供示例和最佳实践。通过函数调用，Claude 可以以结构化的方式与外部函数和工具交互。先决条件开始之前，您需要： Python 3.7 或更高版本anthropic Python 包Anthropic 提供的有效 API …

程序猿
2025年12月13日
1000
好文分享

将待办事项列表设置为Windows壁纸（由SONNET编码）

amoy-todo-wallpaper >将待办事项列表设置为windows壁纸。这是一个由claude-sonnet-3.5编码的python程序，并进行了较小的修订。 github：https://github.com/casualwriter/amoy-todo-wallpaper 如…

程序猿
2025年12月13日
1000
开源LLMS应该得到代码，而不是提示！（DSPY，瞧！）

DSPY：将提示工程转变为提示编程的革命性框架大型语言模型 (llm) 时代，新模型层出不穷。然而，充分发挥 llm 的潜力往往依赖于繁琐易错的提示工程。dspy 应运而生，它是一个开源框架，彻底改变了我们与 llm 交互的方式。dspy 将提示视为可训练、模块化的组件，而非静态文本，并通过编程方…

程序猿
2025年12月13日 • 好文分享
0000
好文分享

使用 Anthropic 的 Claude Sonnet 生成报告

Pilar，一家巴西房地产科技公司，联合创始人兼首席技术官Raphael分享了利用Anthropic Claude 3.5 Sonnet生成报告的经验，并比较了两种不同方法的优劣。Pilar为房地产经纪商提供基于低成功费模式的软件和服务，其20人的技术团队不断开发创新产品，例如全新的房地产门户网站P…

程序猿
2025年12月13日
0000

发表回复

登录后才能评论

羊驼家族大模型集体进化！32k上下文追平GPT-4，田渊栋团队出品

基于RoPE的大模型都能用

Three More Thing

关于作者

相关推荐

发表回复