CREATOR制造、使用工具,实现LLM「自我进化」

自古以来,工具的使用被视为区分人与其他物种的一大区别,也被视为是智能的一种根本体现。而当下,人工智能已不再局限于对工具的简单使用,它们已然能够根据问题创造性地建立自己的工具来寻求解决方案。在思维上,这代表着当下大模型已经能够掌握更高层次的抽象思维认知,并将其与具象思维划分,共同解决问题;而在能力上,工具创造的出现也意味着模型已经能够从 “学习” 中蜕变,去运用已知 “创造” 未来的无限可能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CREATOR制造、使用工具,实现LLM「自我进化」

论文链接:https://arxiv.org/pdf/2305.14318.pdf

研究背景

近年来,大规模语言模型(Large Language Models)取得了显著的研究进展,包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近发布的 GPT-4 等。这些模型在上下文学习(In-Context Learning)、代码生成(Code Generation)和各种其他自然语言处理任务方面表现出色,将模型的潜力进一步推向了通用人工智能。

尽管大模型在这些取得了巨大的成功,其当下仍然存在很多短板,包括无法识别或回答最新的实时信息、很难在大规模的数据计算上达到高准确性,在题干逻辑复杂时推理能力不稳定等等。针对这些短板,研究者开始致力于向当前模型架构中引入对外部资源的利用能力,例如引入计算器,问答系统,维基百科等等外部知识源,来增强模型能力。这一系列研究奠定了模型工具学习(Tool Learning)能力的基础。

然而,当下研究中利用的外部工具数量仍然有限,而在潜在的新任务类型几乎是无尽的。因此,在面对新的问题类型时,很难找到现有的适合解决问题的工具。此外,即使提供了有效的可利用的工具,模型需要在工具包文档中进行海量搜索、匹配并针对问题进行针对性地规划。这将给模型带来很大的认知负担,并需要较高的学习成本

因此,研究团队提出了全新的一种研究范式:工具创造(Tool Creation)。其不再是简单利用大模型使用工具的能力,而是加入了全新的工具创造模块,让模型针对所面对的问题进行工具创造并寻求解决方案。

利用大模型创造工具能够提高工具的普适性、可复用性和多样性,超越给定 API 的限制。工具创造模块的设计还可以减轻大模型的认知负担,并解耦其进行抽象推理(创建可推广的具有普适性的工具)和具象推理(根据工具实现细节和工具使用文档进行决策)的能力。同时,该框架下模型以代码作为工具创造的媒介,这使得模型对于错误更加敏感,并能根据工具创造与使用中的问题进行回溯与修正

CREATOR制造、使用工具,实现LLM「自我进化」

工具创造范式相比工具使用更加灵活并对不同场景有更强的适应能力

CREATOR 研究框架

大模型进行工具创造来解决问题的框架 CREATOR 主要分为了以下四个阶段:

创造(Creation):运用大模型对于问题的抽象推理能力,通过代码有针对性性地创造所需工具以及其使用说明。决策(Decision):运用大模型对于问题的具象推理能力,决策如何调用工具来解决当前问题。执行(Execution):根据创造的工具以及决策内容,进行决策的执行,并捕获执行过程中的输出信息。修正(Rectification):运用大模型对于错因推理以及自我修复的能力,对执行阶段捕捉到的问题进行修复。

CREATOR制造、使用工具,实现LLM「自我进化」

大模型进行工具创造与决策的流程框架

大模型首先将根据问题创造所需要的工具以及其相关使用说明;此后,问题内容以及工具信息将同时再次返回给大模型,用以决策针对本问题的解决方案,以及如何使用这些工具。此后,模型将根据执行情况对工具及决策做出调整,以更好地适应问题并寻求解答。

整个工具创造框架灵活运用了大模型的不同思维能力:提取问题关键信息的抽象思维推理,根据任务实施方案决策的具象思维推理,以及根据问题寻求解决方案的自我修复推理。这些能力的解耦帮助大模型避免了在普通推理链(Chain-of-Thought, CoT)中的思维混乱而导致的失败现象,有效提升了大模型对于任务的适应能力及表现。

CREATOR 实验评测

作者将 CREATOR 框架与当前的普通推理链方法(CoT),程序推理链方法(Program-of-Thought, PoT)以及没有创造的简单工具使用(Tool Use)进行了比对。同时,为了验证框架中剥离抽象推理与具象推理的有效性,作者还额外引入了整体工具创造(Tool Create – whole)作为基线,该方法将 CREATOR 框架中的创造阶段与决策阶段合二为一,不再进行推理能力上的解耦。

CREATOR制造、使用工具,实现LLM「自我进化」

Creation Challenge 数据集问题,标准工具及决策示例

CREATOR制造、使用工具,实现LLM「自我进化」

在 MATH 数据集上 CREATOR 框架的表现高于其他推理方法以及简单的工具运用

在数据集的选取上,作者选择了 MATH 以及 TabMWP 数据集作为主要验证。其中前者包含了美国数学竞赛当中的高难度数学问题,而后者将问题与丰富的数据表结合,二者都考验了模型对于多样化场景的问题推理与解决能力。除此之外,作者还额外引入了全新构建的 Creation Challenge 数据集,其中的问题都无法直接套用现有工具或者代码包解决,从而考验了模型进行工具创造的能力。

CREATOR制造、使用工具,实现LLM「自我进化」

CREATOR制造、使用工具,实现LLM「自我进化」

在 TabMWP 数据集以及 Creation Challenge 上 CREATOR 框架效果也显著更强

从实验结果看来,CREATOR 框架的推理结果要明显好于所有基线,尤其相对于标准的推理方法以及程序推理方法,均达到了更好的效果。同时实验也证明了对抽象与具象推理能力进行解耦也可以有效帮助模型提高准确率。在 Creation Challenge 测试集上,作者还额外验证了在有创造什么样的工具的提示(hint)的情况下,模型将会对问题有着更强的解决能力。因此,提示与思维解耦这两点也成为了工具创造中的重要影响因素。

CREATOR制造、使用工具,实现LLM「自我进化」

不同方法针对任务难度的准确率统计

CREATOR制造、使用工具,实现LLM「自我进化」

在修正阶段的参与下效果的提升

黑点工具 黑点工具

在线工具导航网站,免费使用无需注册,快速使用无门槛。

黑点工具 18 查看详情 黑点工具

除此之外,作者还验证了不同方法对于任务难度的变化曲线,以及修正阶段参与轮次与大模型效果提升之间的联系。结果表明,CREATOR 框架面对有难度的问题能够保持更好的鲁棒性,以及修正阶段的参与能够让不仅是 CREATOR 框架,甚至是 PoT 推理方法都能得到大幅度提升,证实了在实验中引入修正阶段的合理性与有效性。

工具创造的其他优势

在主实验之外,文章作者也着重探讨了工具创造的其他优势以及当下大模型工具创造能力的不同展现形式。既然是创造工具,那么作为工具的一大优势必定是其可复用性。作者也顺此思路进一步展示了工具的复用对于任务效果的提升。

作者设计了 300 条问题并三个一组分为了 100 组。其中每一组的三个问题虽然场景不同,但都涉及相同的核心知识(Core Knowledge),即同类问题。作者验证了将对于一个问题创造的工具用于一组问题中的所有场景,是否都能够有效解决并提升准确率。

CREATOR制造、使用工具,实现LLM「自我进化」

对于大模型创造的工具在其他问题上迁移,能够有效提高准确率

实验统计表明将模型创造的正确可用的工具迁移到其他同类问题场景,能够有效提升问题解决的正确率。这即表明大模型创造的工具具有良好的可复用性,对于同类问题也有着良好的普适性。

除此之外,作者还展示了大模型进行工具创造的三个维度:对已有工具进行封装以实现不同目的,将不同工具进行组合实现目标功能,以及进行层次化的工具创建。这三个维度由低到高展示了当下大模型工具创造的能力,而这些能力也帮助大模型能够更高效地适应不同场景。

CREATOR制造、使用工具,实现LLM「自我进化」

大模型进行工具创造的三个维度

总结

CREATOR 框架通过工具创造实现了大模型抽象与具象思维能力的解耦,是继工具学习之后,对模型能力边际探索的又一大突破。相信未来的更多研究将会以此为基础,继续在工具的使用与创造上不断证明与增强模型潜力,为我们带来更多惊喜。

文章主要作者

CREATOR制造、使用工具,实现LLM「自我进化」

钱成,清华大学大三年级本科生,THUNLP 实验室成员,导师刘知远。目前研究方向包括大模型预训练,大模型高效微调,以及工具学习等领域。曾获清华大学计算机综合优秀奖学金,并以共同一作身份在 EMNLP,ACL 等国际会议中发表论文。

个人主页:https://qiancheng0.github.io/

以上就是CREATOR制造、使用工具,实现LLM「自我进化」的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/523165.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 06:37:37
下一篇 2025年11月9日 06:43:21

相关推荐

  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • 2025年全球AI应用top20最新榜单出炉

    生成式AI与多模态应用的代表包括:1. OpenAI GPT-5通过图灵测试,支持跨模态推理,API调用量达10万亿次/月;2. DeepSeek-R1用户破百万,推理成本低,支持中文理解;3. Google Gemini Ultra与谷歌生态深度整合,市占率40%;4. MidJourney V5…

    2025年12月4日
    000
  • Laravel 速成指南:快速掌握Laravel框架

    Laravel 速成指南:快速掌握Laravel框架 引言:Laravel 是一款流行的PHP开发框架,因其简单易用、功能丰富和高效而备受开发者的青睐。本文旨在为初学者提供一个快速入门 Laravel 的指南,通过实际的代码示例帮助读者快速掌握 Laravel 框架的基本概念和使用方法。 Larav…

    2025年12月4日
    400
  • OpenAI o4-mini— OpenAI推出的小型推理模型

    openai o4-mini 是由openai推出的一款小型推理模型,专为快速且经济高效的推理任务而设计。该模型在数学、编程和视觉任务上表现卓越,在aime 2024和2025基准测试中表现出色,是最佳模型之一。openai o4-mini 支持高容量和高吞吐量的推理任务,适用于快速处理大量问题。它…

    2025年12月4日
    000
  • OpenAI拟30亿美元收购AI编程工具Windsurf

    据知情人士透露,openai正在商谈以约30亿美元的价格收购人工智能辅助编码工具windsurf(原名codeium)。此项交易将成为openai迄今为止最大的一笔收购案,尽管具体细节尚未敲定,谈判仍有可能会改变或终止。 报道指出,Windsurf正在与Kleiner Perkins和General…

    2025年12月4日
    000
  • 苹果回应马斯克指控:App Store 公平且无偏见

    感谢网友 風見暉一、对的时间点 提供的线索! 8 月 13 日,苹果公司针对埃隆・马斯克(Elon Musk)此前关于 App Store 在人工智能应用推广中偏袒 OpenAI 的 ChatGPT 的说法作出回应,强调其应用商店平台始终保持中立与公平。 苹果向彭博社记者马克・古尔曼(Mark Gu…

    2025年12月3日
    100
  • 快速生成ai图片的工具排行榜单top10汇总

    以下是快速生成AI图片的工具排行榜单前三名:1. DALL·E 3:由OpenAI开发,支持复杂指令和多轮对话修改,集成于ChatGPT Plus或通过Bing Image Creator免费使用。2. Midjourney:基于Discord,艺术风格多样,生成质量高,需订阅使用。3. Stabl…

    2025年12月3日 科技
    100
  • AI 越聪明越不听话!新研究:最强推理模型指令遵循率仅 50%

    如果面前有两个 ai 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

    2025年12月3日 硬件教程
    100
  • RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

    清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。 论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用,尤…

    2025年12月3日 科技
    100
  • Agent 要被吃进大模型了

    今天凌晨,奥特曼突然发文宣布推出自家最新的 o 系列模型:满血版 o3 和 o4-mini,同时表示这两款模型都可以自由调用 chatgpt 里的各种工具,包括但不限于图像生成、图像分析、文件解释、网络搜索、python。 总的来说,就是比前一代的性能更强而且价格更低。 ☞☞☞AI 智能聊天, 问答…

    2025年12月3日 科技
    000
  • APP接入AI大模型:实现智能化!

    ai大模型凭借其卓越的理解、生成与推理能力,正在重塑软件应用的形态。将ai大模型能力融入现有或新开发的app中(即app接入ai大模型),已成为开发者增强产品竞争力、为用户打造前所未有的智能体验的关键手段。这不仅是一次技术迭代,更是推动应用向智能化转型的核心战略。 为何APP接入AI大模型已成为不可…

    2025年12月3日
    000
  • AI如何连接数据库执行SQL_利用AI工具连接并运行SQL教程

    AI连接数据库执行SQL是通过自然语言理解将用户需求转化为可执行的SQL语句,实现人机协作的数据查询方式。首先选择支持数据库类型的AI工具,配置安全连接并提供数据库Schema以提升准确性;接着输入自然语言问题,AI生成SQL后需经人工审查优化,再执行获取结果。该技术降低了非技术人员使用数据的门槛,…

    2025年12月3日 数据库
    000
  • 首届魔搭开发者大会举办,重磅发布开发者激励计划

    雷峰网讯 6 月 30 日,首届魔搭开发者大会在北京盛大召开。自 2022 年 11 月成立以来,经过两年多的快速发展,社区已聚集超过 500 家贡献机构,托管开源模型数量突破 7 万个,增长达 200 多倍;用户规模从 2023 年 4 月的 100 万迅速扩展至目前的 1600 万,增幅约 16…

    2025年12月2日
    000
  • 怎样用免费工具做年终PPT_免费年终总结PPT的制作方法

    使用AI工具可免费快速制作专业年终总结PPT。首先通过Autoppt输入主题一键生成多套方案;其次利用博思AIPPT或笔灵PPT导入已有文档自动转为幻灯片;再从OfficePlus等网站下载免费模板手动填充内容;最后熟悉VBA者可用ChatGPT生成代码自动化创建8页基础结构,提升效率。 如果您需要…

    2025年12月2日
    000
  • Java 框架的响应式编程架构:实现和注意事项

    响应式编程架构在 java 中通过 rxjava、reactor 和 vert.x 等框架实现。rxjava 以可观察序列处理数据流。reactor 基于 reactor 模式实现非阻塞事件驱动架构。vert.x 提供全面功能,包括事件总线和 websockets 支持。 Java 框架的响应式编程…

    2025年12月2日 java
    000
  • 夸克网盘资源精品合集_夸克网盘入口快速下载链接直达

    夸克网盘资源精品合集_夸克网盘入口快速下载链接直达?这是不少网友都关注的,接下来由PHP小编为大家带来夸克网盘资源精品合集_夸克网盘入口快速下载链接直达,感兴趣的网友一起随小编来瞧瞧吧! 夸克网盘资源精品合集入口 1、夸克网盘资源精品合集可通过其官方应用或网页端直接访问,官方地址为:https://…

    2025年12月2日 软件教程
    000
  • 如何使用 CSS Flexbox 实现图片和文本的响应式布局?

    CSS Flexbox 响应式布局:图片与文本的完美结合 构建自适应网页布局,应对不同屏幕尺寸至关重要。本文将演示如何利用 CSS Flexbox 实现一个常见的布局需求:左侧固定尺寸图片,右侧自适应文本内容。 在宽屏设备上,文本占据剩余空间;而在窄屏设备(例如手机)上,图片则显示在文本上方。 挑战…

    2025年12月2日 web前端
    000
  • Grok和ChatGPT有什么不同 Grok核心功能与区别对比【分析】

    Grok依托X平台实时数据,擅长热点追踪与分步推理,支持“Deep Search”等专业模式,但仅限Premium+用户使用;ChatGPT知识库固定但功能全面,通过插件实现联网,图像生成更精准,提供免费至付费多层级服务,生态开放且接入便捷。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免…

    2025年12月2日 科技
    000
  • ChatGPT对话内容怎么分享给别人 ChatGPT生成分享链接设置方法【教程】

    可通过复制内容、截图、导出文件或使用笔记工具实现ChatGPT对话分享。1、复制对话文本粘贴至邮件或文档共享;2、用Command+Shift+4截取对话区域并发送图片;3、将对话保存为.txt或.docx文件上传至iCloud、Google Drive等云存储,生成“仅查看”权限的链接;4、将内容…

    2025年12月2日 科技
    000
  • 抖音AI如何用角色设定生成连续剧情_抖音AI角色设定生成连续剧情步骤【详细步骤】

    先锁定角色形象再生成剧情,使用AI绘画工具创建角色并获取gen_id与提示词,通过多角度图像训练提升一致性;构建“起承转合”故事框架,分段生成剧本避免偏离主线;撰写包含六要素的分镜描述,结合gen_id确保画面统一;最后用高保真图生视频技术将分镜转为动态内容,保证角色稳定与叙事连贯。 ☞☞☞AI 智…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信