CREATOR制造、使用工具，实现LLM「自我进化」

程序猿 • 2025年11月9日 06:38:24 • 用户投稿 • 阅读 0

自古以来，工具的使用被视为区分人与其他物种的一大区别，也被视为是智能的一种根本体现。而当下，人工智能已不再局限于对工具的简单使用，它们已然能够根据问题创造性地建立自己的工具来寻求解决方案。在思维上，这代表着当下大模型已经能够掌握更高层次的抽象思维认知，并将其与具象思维划分，共同解决问题；而在能力上，工具创造的出现也意味着模型已经能够从 “学习” 中蜕变，去运用已知 “创造” 未来的无限可能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/pdf/2305.14318.pdf

研究背景

近年来，大规模语言模型（Large Language Models）取得了显著的研究进展，包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近发布的 GPT-4 等。这些模型在上下文学习（In-Context Learning）、代码生成（Code Generation）和各种其他自然语言处理任务方面表现出色，将模型的潜力进一步推向了通用人工智能。

尽管大模型在这些取得了巨大的成功，其当下仍然存在很多短板，包括无法识别或回答最新的实时信息、很难在大规模的数据计算上达到高准确性，在题干逻辑复杂时推理能力不稳定等等。针对这些短板，研究者开始致力于向当前模型架构中引入对外部资源的利用能力，例如引入计算器，问答系统，维基百科等等外部知识源，来增强模型能力。这一系列研究奠定了模型工具学习（Tool Learning）能力的基础。

然而，当下研究中利用的外部工具数量仍然有限，而在潜在的新任务类型几乎是无尽的。因此，在面对新的问题类型时，很难找到现有的适合解决问题的工具。此外，即使提供了有效的可利用的工具，模型需要在工具包文档中进行海量搜索、匹配并针对问题进行针对性地规划。这将给模型带来很大的认知负担，并需要较高的学习成本。

因此，研究团队提出了全新的一种研究范式：工具创造（Tool Creation）。其不再是简单利用大模型使用工具的能力，而是加入了全新的工具创造模块，让模型针对所面对的问题进行工具创造并寻求解决方案。

利用大模型创造工具能够提高工具的普适性、可复用性和多样性，超越给定 API 的限制。工具创造模块的设计还可以减轻大模型的认知负担，并解耦其进行抽象推理（创建可推广的具有普适性的工具）和具象推理（根据工具实现细节和工具使用文档进行决策）的能力。同时，该框架下模型以代码作为工具创造的媒介，这使得模型对于错误更加敏感，并能根据工具创造与使用中的问题进行回溯与修正。

工具创造范式相比工具使用更加灵活并对不同场景有更强的适应能力

CREATOR 研究框架

大模型进行工具创造来解决问题的框架 CREATOR 主要分为了以下四个阶段：

创造（Creation）：运用大模型对于问题的抽象推理能力，通过代码有针对性性地创造所需工具以及其使用说明。决策（Decision）：运用大模型对于问题的具象推理能力，决策如何调用工具来解决当前问题。执行（Execution）：根据创造的工具以及决策内容，进行决策的执行，并捕获执行过程中的输出信息。修正（Rectification）：运用大模型对于错因推理以及自我修复的能力，对执行阶段捕捉到的问题进行修复。

大模型进行工具创造与决策的流程框架

大模型首先将根据问题创造所需要的工具以及其相关使用说明；此后，问题内容以及工具信息将同时再次返回给大模型，用以决策针对本问题的解决方案，以及如何使用这些工具。此后，模型将根据执行情况对工具及决策做出调整，以更好地适应问题并寻求解答。

整个工具创造框架灵活运用了大模型的不同思维能力：提取问题关键信息的抽象思维推理，根据任务实施方案决策的具象思维推理，以及根据问题寻求解决方案的自我修复推理。这些能力的解耦帮助大模型避免了在普通推理链（Chain-of-Thought, CoT）中的思维混乱而导致的失败现象，有效提升了大模型对于任务的适应能力及表现。

CREATOR 实验评测

作者将 CREATOR 框架与当前的普通推理链方法（CoT），程序推理链方法（Program-of-Thought, PoT）以及没有创造的简单工具使用（Tool Use）进行了比对。同时，为了验证框架中剥离抽象推理与具象推理的有效性，作者还额外引入了整体工具创造（Tool Create – whole）作为基线，该方法将 CREATOR 框架中的创造阶段与决策阶段合二为一，不再进行推理能力上的解耦。

Creation Challenge 数据集问题，标准工具及决策示例

在 MATH 数据集上 CREATOR 框架的表现高于其他推理方法以及简单的工具运用

在数据集的选取上，作者选择了 MATH 以及 TabMWP 数据集作为主要验证。其中前者包含了美国数学竞赛当中的高难度数学问题，而后者将问题与丰富的数据表结合，二者都考验了模型对于多样化场景的问题推理与解决能力。除此之外，作者还额外引入了全新构建的 Creation Challenge 数据集，其中的问题都无法直接套用现有工具或者代码包解决，从而考验了模型进行工具创造的能力。

在 TabMWP 数据集以及 Creation Challenge 上 CREATOR 框架效果也显著更强

从实验结果看来，CREATOR 框架的推理结果要明显好于所有基线，尤其相对于标准的推理方法以及程序推理方法，均达到了更好的效果。同时实验也证明了对抽象与具象推理能力进行解耦也可以有效帮助模型提高准确率。在 Creation Challenge 测试集上，作者还额外验证了在有创造什么样的工具的提示（hint）的情况下，模型将会对问题有着更强的解决能力。因此，提示与思维解耦这两点也成为了工具创造中的重要影响因素。

不同方法针对任务难度的准确率统计

在修正阶段的参与下效果的提升

黑点工具

在线工具导航网站，免费使用无需注册，快速使用无门槛。

18 查看详情

除此之外，作者还验证了不同方法对于任务难度的变化曲线，以及修正阶段参与轮次与大模型效果提升之间的联系。结果表明，CREATOR 框架面对有难度的问题能够保持更好的鲁棒性，以及修正阶段的参与能够让不仅是 CREATOR 框架，甚至是 PoT 推理方法都能得到大幅度提升，证实了在实验中引入修正阶段的合理性与有效性。

工具创造的其他优势

在主实验之外，文章作者也着重探讨了工具创造的其他优势以及当下大模型工具创造能力的不同展现形式。既然是创造工具，那么作为工具的一大优势必定是其可复用性。作者也顺此思路进一步展示了工具的复用对于任务效果的提升。

作者设计了 300 条问题并三个一组分为了 100 组。其中每一组的三个问题虽然场景不同，但都涉及相同的核心知识（Core Knowledge），即同类问题。作者验证了将对于一个问题创造的工具用于一组问题中的所有场景，是否都能够有效解决并提升准确率。

对于大模型创造的工具在其他问题上迁移，能够有效提高准确率

实验统计表明将模型创造的正确可用的工具迁移到其他同类问题场景，能够有效提升问题解决的正确率。这即表明大模型创造的工具具有良好的可复用性，对于同类问题也有着良好的普适性。

除此之外，作者还展示了大模型进行工具创造的三个维度：对已有工具进行封装以实现不同目的，将不同工具进行组合实现目标功能，以及进行层次化的工具创建。这三个维度由低到高展示了当下大模型工具创造的能力，而这些能力也帮助大模型能够更高效地适应不同场景。

大模型进行工具创造的三个维度

总结

CREATOR 框架通过工具创造实现了大模型抽象与具象思维能力的解耦，是继工具学习之后，对模型能力边际探索的又一大突破。相信未来的更多研究将会以此为基础，继续在工具的使用与创造上不断证明与增强模型潜力，为我们带来更多惊喜。

文章主要作者

钱成，清华大学大三年级本科生，THUNLP 实验室成员，导师刘知远。目前研究方向包括大模型预训练，大模型高效微调，以及工具学习等领域。曾获清华大学计算机综合优秀奖学金，并以共同一作身份在 EMNLP，ACL 等国际会议中发表论文。

个人主页：https://qiancheng0.github.io/

以上就是CREATOR制造、使用工具，实现LLM「自我进化」的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/523165.html

chatgpt llama 框架研究

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

原神云岩裂叶怎么获得-原神云岩裂叶全部获取位置大全

上一篇 2025年11月9日 06:38:21

Linux yum命令如何查看已安装软件

下一篇 2025年11月9日 06:38:24

用户投稿

C++ 框架的未来趋势是什么？

c++++框架的未来趋势包括：元编程（支持更灵活的代码）、反射和内省（改进调试和可测试性）、并发和并行（提升性能）、分布式计算（适用于分布式系统）。示例代码展示了使用boost.asio（c++网络库）创建http服务器的方法。 C++ 框架的未来趋势 C++ 作为一门强大的系统编程语言，拥有庞大的…

程序猿
2026年5月10日
0000
用户投稿

高性能C++框架对比

在众多高性能 c++++ 框架中，最受欢迎的选择包括 folly、boost.asio 和 qt concurrent。每个框架都有其独特的特性：folly：轻量级、高效，适用于优化异常处理、内存管理和并行处理。boost.asio：跨平台 i/o 库，提供广泛的网络和并行编程功能。qt concu…

程序猿
2026年5月10日
0000
用户投稿

C++ 框架在不同行业中的适用范围：评估优缺点

c++++ 框架可通过提供高性能、低层访问和可移植性来简化开发。评估优缺点可以帮助确定适用行业：游戏开发：高性能图形和物理（ue4、unity）金融：专用金融建模库（quantlib、bloomberg bquant）医疗保健：医疗图像处理和可视化（dicomtoolkit、vtk）网络安全：高级加…

程序猿
2026年5月10日
0000
用户投稿

C++ 框架选择指南：深入浅出剖析关键考量因素

C++ 框架选择指南：关键考量因素深入浅出在当今快节奏的软件开发环境中，选择合适的 C++ 框架至关重要，因为它可以显着影响应用程序的效率、可维护性和可扩展性。本文提供了全面的指南，旨在帮助开发人员选择最适合其项目的 C++ 框架。关键考虑因素 1. 项目类型和规模：立即学习“C++免费学习笔…

程序猿
2026年5月10日
0000
用户投稿

C++ 框架简化嵌入式系统复杂功能开发

c++++ 框架通过代码重用、封装抽象和标准化接口，简化了嵌入式系统复杂功能开发：代码重用：提供预定义组件和模块，可重复用于不同项目。封装抽象：封装底层系统细节，允许开发者专注于应用程序逻辑。标准化接口：定义标准化接口，确保组件之间的一致性和互操作性。 C++ 框架简化嵌入式系统复杂功能开发在嵌入…

程序猿
2026年5月10日
0000
用户投稿

PHP框架如何影响开发时间和成本？

php 框架可通过代码复用和模块化架构缩短开发时间，降低服务器成本和错误修复成本，提高应用程序一致性和安全性。选择合适的框架可优化开发时间和成本，例如使用 laravel 进行电子商务开发或使用 codeigniter 进行 cms 开发。 PHP 框架如何影响开发时间和成本 PHP 框架为 Web…

程序猿
2026年5月10日
1000
用户投稿

深入了解C++框架中的反射和动态类型

答案： c++++ 框架中的反射和动态类型允许我们获取有关类型的信息并实时修改对象。详细描述：反射：程序在运行时检查和修改自身代码结构的能力，使用 std::type_index 和 std::type_info 获取类型元数据。动态类型：在程序运行时确定的对象类型，通过 dynamic_cast …

程序猿
2026年5月10日
0000
用户投稿

开发基于ChatGPT的自动写诗系统：Python让诗意流淌

开发基于ChatGPT的自动写诗系统：Python让诗意流淌自古以来，诗歌一直是人类表达感情和思想的一种重要方式。然而，写好一首优美的诗歌并不是每个人都能做到的，特别是对于那些没有诗歌创作经验的人来说。但是，现代技术的发展让自动写诗成为可能，人们可以利用计算机和人工智能技术来自动生成诗歌。在这篇文…

程序猿
2026年5月10日
0000
用户投稿

深入解析Pytest框架：特点、应用与实例分析

Pytest框架详解：优势、用法与案例分析引言：在软件开发过程中，单元测试是一个非常重要的环节，它能够帮助我们发现代码中的问题，确保代码的质量。而对于Python语言而言，Pytest框架是一个非常强大的工具，能够简化单元测试的编写和执行。本文将详细介绍Pytest框架的优势、用法，并通过案例分析…

程序猿
2026年5月10日
0000
用户投稿

C++ 框架在特定领域的挑战：与其他框架的困难对比

在特定领域，c++++ 框架面临着一些挑战，包括：web 开发：与动态语言相比缺乏灵活性，并发问题移动开发：缺乏本机 ui 组件，内存管理挑战机器学习：生态系统较小，性能开销与其他框架对比：python：缺乏 c++ 的性能java：运行时开销node.js：缺乏原始性能 C++ 框架在特定领域的挑…

程序猿
2026年5月10日
0000
用户投稿

探究最佳响应式布局框架：竞争激烈！

响应式布局框架大比拼：谁是最佳选择？随着移动设备的普及和多样化，网页的响应式布局变得越来越重要。为了满足用户的不同设备和屏幕尺寸，在设计和开发网页时采用响应式布局框架是必不可少的。然而，面对众多的框架选择，我们不禁要问：哪个是最佳选择？以下将对目前比较流行的三种响应式布局框架进行比较评价，它们分…

程序猿
2025年12月24日
5000
用户投稿

深入学习响应式布局框架：适合初学者到专家的详尽指南

响应式布局框架解析：从初学者到专家的必备指南随着移动设备的普及和多样化，响应式布局成为了现代Web设计的必备技能。响应式布局框架以其简单、灵活和可维护的特点，成为了开发者们的首选工具。然而，对于初学者来说，学习和理解响应式布局框架可能会感到有些困惑。本文将从初学者到专家，为您提供一个详细的指南，帮…

程序猿
2025年12月24日
4000
选择最适合您的响应式布局框架：综合评估不同工具

响应式设计是指网页可以根据不同设备的屏幕尺寸和分辨率进行自适应的布局，以确保在各种设备上都能提供良好的浏览体验。为了方便开发者实现响应式布局，出现了许多优秀的框架和工具。本文将汇总一些主流的响应式布局框架，并提供具体的代码示例，帮助读者选择最适合自己的工具。 Bootstrap（https://ge…

程序猿
2025年12月24日 • 用户投稿
0000
用户投稿

探索五种流行的响应式设计框架

随着移动设备的广泛应用和互联网的普及，响应式布局已经成为了网页设计的重要概念。响应式布局能够根据用户使用的设备（如手机、平板、电脑等）不同的屏幕尺寸和分辨率，自动适应调整网页的布局和样式，提供更好的用户体验。为了快速实现响应式布局，开发者可以使用现成的响应式布局框架。这些框架提供了一系列的CSS和…

程序猿
2025年12月24日
0000
用户投稿

揭示粘性定位的关键要素是什么？揭示达到粘性定位的关键要点

研究粘性定位的关键因素是什么？探索粘性定位的要点粘性定位（stickiness positioning）是指在市场营销中，企业通过创造和维护与消费者之间的积极、持久的关系，使其成为消费者心中的首选品牌。在如今竞争激烈且消费者选择众多的市场环境下，粘性定位成为企业获取长期竞争优势的关键要素之一。那么…

程序猿
2025年12月24日
6000
用户投稿

了解Ajax框架：探索常见的五种框架

了解Ajax框架：探索常见的五种框架，需要具体代码示例引言：在现代Web应用开发中，Ajax是必不可少的技术之一。它以其支持异步数据交互，提升用户体验等特点，成为了前端开发中不可或缺的一部分。为了更好地了解和掌握Ajax框架，本文将介绍五种常见的Ajax框架，并提供具体的代码示例，帮助读者深入了解…

程序猿
2025年12月24日
5000
用户投稿

解析网页设计中CSS框架和排版的作用与优点

在如今的网页设计领域，排版和CSS框架扮演着至关重要的角色。而在这种快节奏的工作中，更快速、更高效地完成任务显得尤为关键，这就是排版和CSS框架的优势所在。本文将会探讨如何使用这些工具来优化网页设计，同时提供一些实际的代码篇例，以便读者更好地理解。一、CSS框架的作用和优势 CSS框架是为了能够更…

程序猿
2025年12月24日
0000
用户投稿

揭开提高手机网页开发效率的秘密武器：了解手机CSS框架的全貌

在如今移动互联网盛行的时代，手机网页开发已经成为一项必要的技能。相比于传统PC端网页，手机网页的开发要面临更多的挑战和限制。因此，使用一些高效的开发工具和技巧可以大大提高开发效率和质量。其中之一就是手机CSS框架。本文将介绍手机CSS框架的基本概念、常用的手机CSS框架以及具体代码示例，希望能对大家…

程序猿
2025年12月24日
1000
常见的css框架有哪些

常见css框架：1、Bootstrap框架；2、Foundation框架，一个专业的前端框架；3、Pure框架，优点是渲染快；4、Skeleton框架；5、99lime HTML KickStart框架，适合网站快速开发；6、Kube框架。本教程操作环境：windows7系统、CSS3版、Dell…

程序猿
2025年12月24日 • 用户投稿
0000
15 个优秀的响应式 Web 设计 HTML 和 CSS 框架

【推荐教程：CSS视频教程】响应式 Web 设计旨在为各种设备（从台式机显示器到手机）提供最佳的浏览体验。本文汇总了一些优秀的响应式 Web 设计 HTML 和 CSS 框架。这些框架都是开源的并免费的。对响应式 Web 框架进行比较并不那么容易。有的框架适合设计更快、更精简网站的某些功能，而…

程序猿
2025年12月24日 • 用户投稿
0000