把LLM视作操作系统，它就拥有了无限「虚拟」上下文，伯克利新作已揽1.7k star

程序猿 • 2025年12月1日 18:37:11 • 用户投稿 • 阅读 0

近年来，大语言模型（llm）及其底层的 transformer 架构已经成为了对话式 ai 的基石，并催生了广泛的消费级和企业应用程序。尽管有了长足的进步，但 llm 使用的固定长度的上下文窗口极大地限制了对长对话或长文档推理的适用性。即使是使用最广泛的开源 llm，它们的最大输入长度只允许支持几十条消息回复或短文档推理。

与此同时，受限于 transformer 架构的自注意力机构，简单地扩展 transformer 的上下文长度也会导致计算时间和内存成本成倍增加，这就使得全新的长上下文架构成为紧迫的研究课题。

不过，即使我们能够克服上下文缩放的计算挑战，但最近的研究却表明，长上下文模型很难有效地利用额外的上下文。

这如何解决呢？考虑到训练 SOTA LLM 所需的大量资源以及上下文缩放明显的回报递减，我们迫切需要支持长上下文的替代技术。加州大学伯克利分校的研究者在这方面有了新的进展。

在本文中，研究者探究了如何在继续使用固定上下文模型的同时，提供无限上下文的幻觉（illusion）。他们的方法借鉴了虚拟内存分页的思路，使得应用程序能够处理远超出可用内存的数据集。

基于该思路，研究者利用 LLM 智能体函数调用能力的最新进展，设计出了一个受 OS 启发、用于虚拟上下文管理的 LLM 系统 ——MemGPT。

论文主页：https://memgpt.ai/

arXiv 地址：https://arxiv.org/pdf/2310.08560.pdf

项目已经开源，在 GitHub 上已经斩获了 1.7k 的 star 量。

GitHub 地址：https://github.com/cpacker/MemGPT

方法概览

该研究从传统操作系统的分层内存管理中汲取灵感，在上下文窗口（类似于操作系统中的「主存（main memory）」）和外部存储之间有效地「分页」进出信息。MemGPT 则负责管理内存、LLM 处理模块和用户之间的控制流。这种设计允许在单个任务期间反复进行上下文修改，从而允许智能体更有效地利用其有限的上下文窗口。

MemGPT 将上下文窗口视为受限内存资源，并为 LLM 设计类似于传统操作系统中分层内存（Patterson et al., 1988）的层次结构。为了提供更长的上下文长度，该研究允许 LLM 通过「LLM OS」——MemGPT，来管理放置在其上下文窗口中的内容。MemGPT 使 LLM 能够检索上下文中丢失的相关历史数据，类似于操作系统中的页面错误。此外，智能体可以迭代地修改单个任务上下文窗口中的内容，就像进程可以重复访问虚拟内存一样。

MemGPT 能够让 LLM 在上下文窗口有限的情况下处理无界上下文，MemGPT 的组件如下图 1 所示。

MemGPT 通过函数调用协调主上下文（上下文窗口中的内容）和外部上下文之间的数据移动，MemGPT 根据当前上下文自主更新和检索。

值得注意的是，上下文窗口需要用 warning token 来标识其限制，如下图 3 所示：

实验及结果

在实验部分，研究者在两个长上下文域中来评估 MemGPT，分别是对话式智能体和文档处理。其中对于对话式智能体，他们扩展了现有的多会话聊天数据集（Xu et al. (2021)），并引入了两个新的对话任务以评估智能体在长对话中保留知识的能力。对于文档分析，他们根据 Liu et al. (2023a) 提出的任务对 MemGPT 进行基准测试，包括对长文档的问答和键值检索。

用于对话智能体的 MemGPT

当与用户对话时，智能体必须满足以下两个关键标准。

一是一致性，即智能体应保持对话的连贯性，提供的新事实、引用和事件应与用户、智能体之前的陈述保持一致。

二是参与度，即智能体应该利用用户的长期知识来个性化响应。参考之前的对话可以使对话更加自然和引人入胜。

博思AIPPT

博思AIPPT来了，海量PPT模板任选，零基础也能快速用AI制作PPT。

117 查看详情

因此，研究者根据这两个标准对 MemGPT 进行评估：

MemGPT 是否可以利用其记忆来提高对话一致性？能否记住过去交互中的相关事实、引用、事件以保持连贯性？

MemGPT 是否可以利用记忆生成更有吸引力的对话？是否自发地合并远程用户信息以个性化信息？

关于使用到的数据集，研究者在 Xu et al. (2021) 提出的多会话聊天（MSC）上对 MemGPT 和固定上下文的基线模型展开评估对比。

首先来一致性评估。研究者引入了一个基于 MSC 数据集的深层记忆检索（deep memory retrieval, DMR）任务，旨在测试对话智能体的一致性。在 DMR 中，用户向对话智能体提出一个问题，并且该问题明确引用先前的对话，预期答案范围会非常窄。具体可以参加下图 5 示例。

MemGPT 利用内存来保持一致性。下表 2 显示了 MemGPT 与固定记忆基线模型的性能对比，包括 GPT-3.5 和 GPT-4。

可以看到，MemGPT 在 LLM 判断准确度和 ROUGE-L 分数方面显著优于 GPT-3.5 和 GPT-4。MemGPT 能够利用回想记忆（Recall Memory）查询过去的对话历史，进而回答 DMR 问题，而不是依赖递归摘要来扩展上下文。

然后在「对话开场白」任务中，研究者评估智能体从先前对话积累的知识中提取引人入胜的消息并传递给用户的能力。

研究者在下表 3 中展示了 MemGPT 开场白的 CSIM 分数。结果表明，MemGPT 能够制作引人入胜的开场白，其表现可以媲美甚至超越人类手写的开场白。此外还观察到 MemGPT 倾向于制作比人类基线更长且涵盖更多角色信息的开场白。下图 6 为示例。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

用于文档分析的 MemGPT

为了评估 MemGPT 分析文档的能力，研究者对 MemGPT 以及在 Liu et al. (2023a) 检索器 – 阅读器文档 QA 任务上的固定上下文基线模型进行了基准测试。

结果显示，MemGPT 能够通过查询档案存储有效地对检索器进行多次调用，从而可以扩展到更大的有效上下文长度。MemGPT 主动从档案存储中检索文档并且可以迭代地分页浏览结果，因而其可用的文档总数不再受到适用 LLM 处理器上下文窗口的文档数量的限制。

由于基于嵌入的相似性搜索的局限性，文档 QA 任务对所有方法都构成了极大的挑战。研究者观察到，MemGPT 会在检索器数据库耗尽之前停止对检索器结果进行分页操作。

此外 MemGPT 更复杂操作所创建的检索文档容量也存在权衡，如下图 7 所示，其平均准确度低于 GPT-4（高于 GPT-3.5），但可以轻松地扩展到更大的文档。

研究者还引入了一项基于合成键值检索的新任务，即嵌套键值检索（Nested Key-Value Retrieval），用以演示 MemGPT 如何对来自多个数据源的信息进行整理。

从结果来看，虽然 GPT-3.5 和 GPT-4 在原始键值任务上表现出了良好性能，但在嵌套键值检索任务中表现不佳。而 MemGPT 不受嵌套层数的影响，并能够通过函数查询重复访问存储在主内存中的键值对，来执行嵌套查找。

MemGPT 在嵌套键值检索任务上的性能，展示了其利用多个查询的组合执行多条查找的能力。

更多技术细节和实验结果请参阅原论文。

以上就是把LLM视作操作系统，它就拥有了无限「虚拟」上下文，伯克利新作已揽1.7k star的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/959622.html

理论预训练大模型

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

如何在CSS中实现文字溢出处理_text-overflow ellipsis技巧

上一篇 2025年12月1日 18:37:11

6G 推进组组长：明年 6 月会启动 6G 技术标准研究

下一篇 2025年12月1日 18:37:15

html的基础理论

本篇文章给大家分享的是关于html基础理论知识，内容很不错，有感兴趣的朋友可以看一下 HTML 语义化 HTML标签的语义化是指：通过使用包含语义的标签（如h1-h6）恰当地表示文档结构 css命名的语义化是指：为html标签添加有意义的class 为什么需要语义化：立即学习“前端免费学习笔记（…

程序猿
好文分享 2025年12月21日
0000
北航打破模态壁垒，跨可见光-红外模态的通用物理对抗攻击方法来了

近年来，针对视觉感知系统安全性评估的探索逐步深入，先后有研究者成功实现基于眼镜、贴纸、衣服等不同载体的可见光模态安全评估技术，也有一些针对红外模态的新尝试。但是它们都只能作用于单一模态。随着人工智能技术的发展，可见光 – 热红外成像技术已同时应用于治安监控、自动驾驶等诸多安全关键任务中…

程序猿
2025年12月1日 • 用户投稿
1000
「场景控制传送门：四合一物体传送，上交&蚂蚁出品」

在常见的图像编辑操作中，图像合成是指将一张图片的前景物体与另一张背景图片结合，生成一张合成图的过程。合成后的图像在视觉效果上类似于将前景物体从一张图片传送到另一张背景图片上，如下图所示图像合成在艺术创作、海报设计、电子商务、虚拟现实、数据增广等领域被广泛使用通过简单的剪切粘贴得到的合成图可能会存…

程序猿
2025年12月1日 • 用户投稿
0000
AMD与约翰霍普金斯大学联手：AI实验室copilot自动化科研，成本节约84%！

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 2049 科学研究，尤其是机器学习领域的研究，往往需要大量的时间和资源投入，从最初的构思到最终的结果产出，每一步都充满了挑战。近年来，大型语言模型（Large Language Mo…

程序猿
2025年12月1日 • 用户投稿
0000
五个时间序列预测的深度学习模型对比总结

Makridakis M-Competitions系列（分别称为M4和M5）分别在2018年和2020年举办（M6也在今年举办了）。对于那些不了解的人来说，m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结，为当前得预测的理论和实践提供了经验和客观的证据。 2018年M4的结果表明，纯粹的…

程序猿
2025年11月27日 • 用户投稿
0000
机器学习为未来核聚变发电厂寻找合适的氢同位素组合

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 白菜叶恒星的动力来源——核聚变——被提议作为人类未来的能源，并且可以提供清洁和可再生的能源，而无需与当前核裂变工厂相关的放射性废物。就像从太阳溢出能量的聚变过程一样，未来的核聚变设…

程序猿
2025年11月27日 • 用户投稿
0000
10万美元+26天，一个低成本千亿参数LLM就诞生了

包括仅解码器结构（如 GPT 和 LLAMA 系列模型）、仅编码器结构（如 BERT）和编码器 – 解码器结构（如 T5）以及它们的变体模型在内的大型语言模型（LLM）已经取得了非凡的成功，并已被广泛用于各种语言处理和多模态任务。尽管如此成功，训练 LLM 的成本还是过于高昂，以至于仅…

程序猿
2025年11月27日 • 用户投稿
0000
【论文解读】基于图的自监督学习联合嵌入预测架构

一、简要介绍 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 本文演示了一种学习高度语义的图像表示的方法，而不依赖于手工制作的数据增强。论文介绍了基于图像的联合嵌入预测架构（I-JEPA），这是一种用于从图像中进行自监督学习的非生成性方法。I…

程序猿
2025年11月26日 • 用户投稿
1000
AI炼金术革新化学：MIT学者使用生成式AI，六秒生成新化学反应

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 需要重新书写的是：编辑 | 凯霞化学从远古的「等价交换」炼金术开始，一直是一门研究和控制物质间相互作用的学科。通过不断解锁和利用新的化学反应，人们开发了许多新材料。这些新材料不仅为人们的生活带…

程序猿
2025年11月26日 • 用户投稿
2000
AI4Science的基石：几何图神经网络，最全综述来了！人大高瓴联合腾讯AI lab、清华、斯坦福等发布

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | XS Nature 在 2023 年 11 月发表了两项重要研究成果：蛋白质合成技术 Chroma 和晶体材料设计方法 GNoME。这两项研究都采用了图神经网络作为处理科学数据的工具。…

程序猿
2025年11月26日 • 用户投稿
0000
多功能RNA分析，百度团队基于Transformer的RNA语言模型登Nature子刊

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 萝卜芯预训练语言模型在分析核苷酸序列方面显示出了良好的前景，但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。百度大数据实验室（Big Data Lab，BDL）…

程序猿
2025年11月26日 • 用户投稿
0000
微软发布首个大气AI基础模型Aurora

编辑 | scienceai 在2023年11月，飓风“夏兰”（Ciarán）袭击欧洲西北部，造成严重破坏。与风暴Ciarán相关的低压系统为英格兰创下了新纪录，这是一次极为罕见的气象事件。那场风暴的强度让许多人措手不及，暴露了当前天气预报模型的局限性，并突显出面对气候变化需要更准确的预测。当大家…

程序猿
2025年11月26日 • 用户投稿
2000
AI小分子药物发现的「百科全书」，康奈尔、剑桥、EPFL等研究者综述登Nature子刊

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 作者 | 康奈尔大学杜沅岂编辑 | ScienceAI 随着 AI for Science 受到越来越多的关注，人们更加关心 AI 如何解决一系列科学问题并且可以被成功借鉴到其他相近的领域。 …

程序猿
2025年11月26日 • 用户投稿
0000
高效且准确，郑州大学团队开发新AI工具识别药物-靶标相互作用

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 枯叶蝶准确识别药物-靶标相互作用（DTI）是药物发现和药物重新定位过程中的关键步骤之一。目前，许多基于计算的模型已被提出，用于预测 DTI，并取得了一些显著的进步。然而，这些方法…

程序猿
2025年11月26日 • 用户投稿
1000
Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 萝卜皮 OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型（LLM）因其在化学信息学领域的潜力而日益受到认可，特别是在理解简化分子输入行输入系统（SMILES…

程序猿
2025年11月26日 • 用户投稿
0000
通过深度学习预测离散时间分岔

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 白菜叶许多自然和人造系统都容易发生关键转变——动态方面的突然且可能具有破坏性的变化。深度学习分类器可以通过从大型模拟训练数据集中学习分叉的通用特征，为关键转变提供预警信号。到目前为止，…

程序猿
2025年11月26日 • 用户投稿
0000
CVPR 2024 ｜自动驾驶世界模型四维时空预训练

北京大学与evlo创新团队共同提出面向自动驾驶的四维时空预训练算法driveworld。该方法采用世界模型进行预训练，设计记忆状态空间模型进行四维时空建模，通过预测场景的占据栅格，降低自动驾驶面临的随机不确定性和知识不确定性。该论文已被cvpr 2024接收。 ☞☞☞AI 智能聊天, 问答助手, A…

程序猿
2025年11月26日 • 用户投稿
0000
筛选数十亿化合物库，华盛顿大学药物AI虚拟筛选平台，登Nature子刊

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | KX 基于结构的虚拟筛选在药物发现中发挥着重要作用，科学家对数十亿种化合物库的筛选越来越感兴趣。但只有少数的筛选取得成功，此外，对于基于物理的对接方法而言，对整个超大型库进行虚拟筛选…

程序猿
2025年11月26日 • 用户投稿
2000
从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | ScienceAI 人们总是在寻找规律来解释宇宙，并预测未来。俗话说，「朝霞不出门，晚霞行千里」，人们常常用它来预测天气。 AI 非常擅长发现模式并进行预测。现在，微软研究人员正在尝试…

程序猿
2025年11月26日 • 用户投稿
0000
诺奖颁给交叉学科，对「AI for Science」意味着什么？

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 诺贝尔物理学奖授予 AI 科学家编辑 | X_X 2024 年 10 月 8 日，诺贝尔物理学奖授予了两位人工智能（AI）领域的科学家以表彰他们的发现。诺贝尔奖评审团表示，被誉为「人工智能教…

程序猿
2025年11月26日 • 用户投稿
0000

发表回复

登录后才能评论

把LLM视作操作系统，它就拥有了无限「虚拟」上下文，伯克利新作已揽1.7k star

关于作者

相关推荐

发表回复