清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT

人类具有创造和利用工具的能力,使得我们可以突破身体的限制,探索更广阔的世界。 

人工智能基础模型也类似,如果仅靠训练阶段得到的权重,使用场景就会非常受限,而最近提出的工具学习(tool learning),将特定领域的专用工具与大规模基础模型相结合,可以实现更高的效率、性能。

Cowriter Cowriter

AI 作家,帮助加速和激发你的创意写作

Cowriter 107 查看详情 Cowriter

不过目前工具学习的相关研究还不够深入,也缺乏相关的开源数据和代码。

最近,清华大学自然语言处理实验室等支持的开源社区OpenBMB (Open Lab for Big Model Base)发布了ToolBench项目,可以帮助开发者构建开源、大规模、高质量的指令调优数据,促进构建具有通用工具使用能力的大型语言模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT

仓库链接:https://github.com/OpenBMB/ToolBench

ToolBench仓库中提供了相关数据集、训练和评估脚本,以及在ToolBench上微调的功能模型ToolLLaMA,具体特点为:

1. 支持单工具和多工具方案

其中单工具设置遵循LangChain提示风格,多工具设置遵循AutoGPT的提示风格。

2. 模型回复不仅包括最终答案,还包含模型的思维链过程、工具执行和工具执行结果

3. 支持真实世界级别的复杂性,支持多步工具调用

4. 丰富的API,可用于现实世界中的场景,如天气信息、搜索、股票更新和PowerPoint自动化

5. 所有的数据都是由OpenAI API自动生成并由开发团队进行过滤,数据的创建过程很容易扩展

不过需要注意的是,目前发布的数据还不是最终版本,研究人员仍然在对数据进行后处理来提高数据质量,并增加真实世界工具的覆盖范围。

ToolBench

ToolBench的总体思路是基于BMTools,在有监督数据中训练大型语言模型。

清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT

仓库中包含31.2万次真实API调用得到的9800条数据,涵盖单工具场景和多工具场景,下面是单工具的统计信息。

清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT

其中每行数据都是一个json dict,包含数据创建的提示模板、工具使用的人工指令(查询)、中间思维/工具执行循环和最终答案。

Tool Descrition:BMTools Tool_name: translationTool action: get_translationaction_input: {"text": target texts, "tgt_lang": target language}Generated Data:{"prompt": "Answer the following questions as best you can. Specifically, you have access to the following APIs:nnget_translation: . Your input should be a json (args json schema): {{"text" : string, "tgt_lang" : string, }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.nnUse the following format:nnQuestion: the input question you must answernThought: you should always think about what to donAction: the action to take, should be one of [get_translation]nAction Input: the input to the actionnObservation: the result of the actionn... (this Thought/Action/Action Input/Observation can repeat N times, max 7 times)nThought: I now know the final answernFinal Answer: the final answer to the original input questionnnBegin! Remember: (1) Follow the format, i.e,nThought:nAction:nAction Input:nObservation:nFinal Answer:n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything, and if your Observation has no link, DO NOT hallucihate one. (4) If you have enough information and want to stop the process, please use nThought: I have got enough informationnFinal Answer: **your response. n The Action: MUST be one of the following:get_translationnQuestion: {input}n Agent scratchpad (history actions):n {agent_scratchpad}","query": "My intention is to convert the data provided in ما هي الأقسام الثلاثة للقوات المسلحة؟ into Arabic(ara).n","chains": [{"thought": "I need to use the get_translation API to convert the text into Arabic.","action": "get_translation","action_input": "{"text": "What are the three branches of the military?", "tgt_lang": "ara"}","observation": ""ما هي الفروع الثلاثة للجيش ؟""}],"answer": "The translation of "What are the three branches of the military?" into Arabic is "ما هي الفروع الثلاثة للجيش ؟"."}

模型实验

机器评估:研究人员对每个工具随机抽取100个链步(chain steps)来构建机器评估测试平台,平均27个最终步骤和73个中间工具调用步骤,其中最终步骤的评估使用Rouge-L指标,中间步骤的评估使用ExactMatch指标进行评估。

清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT

人工评估:在天气、地图、股票、翻译、化学和WolframAlpha工具中随机抽取10个query,然后评估工具调用过程的通过率、最终答案以及和ChatGPT最终答案的比较。

ChatGPT评估:通过ChatGPT对LLaMA和ChatGPT的答案和工具使用链进行自动评估。

评估结果如下(分数越高越好),可以看到ToolLLaMA在不同场景下与ChatGPT的性能相同或更好。

清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT

工具学习

在清华大学、人民大学、北京邮电大学等个国内外知名高校和大学联合发布的一篇论文中,对工具学习进行了系统的研究,介绍了工具学习的背景,包括认知起源、基础模型的范式转变,以及工具和模型的互补作用。

清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT

论文链接:https://arxiv.org/pdf/2304.08354.pdf

文中还回顾了现有的工具学习研究,包括工具增强型和工具导向型学习,并制定了一个通用的工具学习框架:从理解用户指令开始,模型应该学会把一个复杂的任务分解成几个子任务,通过推理动态地调整计划,并通过选择合适的工具有效地征服每个子任务。

文中还讨论了如何训练模型以提高工具使用能力并促进工具学习的普及。

考虑到之前的工作中缺乏系统的工具学习评估,研究人员用17种有代表性的工具进行了实验,并展示了当前基础模型在熟练利用工具方面的潜力。

论文最后讨论了几个需要进一步研究的工具学习的开放性问题,例如确保安全和可信赖的工具使用、用基础模型实现工具创建,以及解决个性化的难题。

参考资料:

https://github.com/OpenBMB/ToolBench

以上就是清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/976766.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
电脑主机开机声音很大
上一篇 2025年12月1日 20:30:06
Java 中查找并显示重复客户编号的有效方法
下一篇 2025年12月1日 20:30:09

相关推荐

  • 人工智能如何为 C 语言代码提供安全增强功能?

    人工智能通过提供以下功能来提升 c 代码安全性:静态分析:识别潜在安全漏洞(例如缓冲区溢出);动态分析:监控代码执行并检测异常行为;模糊测试:生成随机输入以测试代码的异常行为;自动化修复:建议修复措施或自动生成补丁程序。 人工智能赋能 C 代码:提升安全性 人工智能 (AI) 在 C 代码安全方面发…

    2026年5月10日
    100
  • ChromaDB向量嵌入的有效持久化策略

    本文详细介绍了如何利用langchain中chromadb的`persist_directory`功能,高效地持久化存储向量嵌入。通过将生成的嵌入数据保存到本地磁盘,可以有效避免重复计算,显著提升工作流程效率。教程将涵盖持久化chromadb实例的创建与后续加载的完整过程。 在处理大规模文本数据并生…

    2026年5月10日
    000
  • DeAgentAI(AIA)币是什么?值得投资吗?DeAgentAI上线指南、价格预测及路线图介绍

    目录 DeAgentAI (AIA) 上市:关键细节和交易时间表关键上市信息DeAgentAI(AIA)价格预测:上市后DeAgentAI (AIA) 是什么:解释DeAgentAI (AIA) 为何脱颖而出?DeAgentAI (AIA) 生态系统:其运作方式认识 DeAgentAI (AIA) …

    2026年5月10日
    000
  • typescript用来干嘛_typescript的作用

    TypeScript 是一种用于构建大型复杂应用程序的开源编程语言,它扩展了 JavaScript 的功能,具有以下作用:类型系统:编译时检查类型错误,提高代码可靠性。面向对象编程特性:支持类、接口、抽象类,增强代码组织性和维护性。模块系统:分解程序为可重用模块,提升可维护性和可扩展性。全面的类型推…

    2026年5月10日
    000
  • C++ 框架如何支持人工智能模型的持续改进和维护?

    C++ 框架助力持续改进和维护 AI 模型 简介 训练和部署 AI 模型是一项持续的过程,需要不断改进和维护。C++ 框架提供了强大的工具和特性,以支持这些活动。 持续改进 立即学习“C++免费学习笔记(深入)”; 数据收集和特 征工 程 C++ 框架如 TensorFlow 和 PyTorch 提…

    2026年5月10日
    000
  • C++框架在人工智能领域的应用

    c++++ 框架在 ai 领域应用广泛,提供速度、效率和灵活性的优势。流行的 ai c++ 框架包括 tensorflow、pytorch、caffe2、mxnet 和 theano。这些框架用于开发图像分类、自然语言处理和机器学习等应用程序。 C++ 框架在人工智能领域的应用 C++ 以其速度、效…

    2026年5月10日
    000
  • 人工智能助力 C 代码集成和 DevOps实践

    通过将人工智能 (ai) 集成到 c 代码集成和 devops 实践中,可以提高效率和质量:代码审查: ai 工具可以分析代码并识别潜在问题,评估质量指标,例如可读性、可维护性和安全风险。(实战案例:codescene)测试自动化: ai 算法可以生成测试用例并执行测试,提高测试覆盖率。(实战案例:…

    2026年5月10日
    000
  • Holoworld AI(HOLO)是什么币?怎么买?未来能涨到多少

    Holoworld AI(HOLO)是AI驱动虚拟社交平台的原生代币,用于生态内功能与激励。用户可通过中心化平台(如用USDT交易)或去中心化平台获取HOLO,需注意合约地址准确性与网络手续费。其市场表现受项目团队、技术进展、代币经济模型、市场环境及社区活跃度等多重因素影响,且所有数字资产交易均伴随…

    2026年5月10日
    200
  • 如何运用人工智能提升 C 代码可维护性?

    如何运用人工智能提升 C 代码可维护性 在 C 编程中,可维护性是至关重要的,它可以确保代码易于理解、修改和调试。人工智能 (AI) 可以成为提升 C 代码可维护性的强大工具。 1. 代码生成和重构 AI 可以用于生成新的代码或重构现有代码,使其更易于维护。例如,代码生成器可以根据指定规范自动生成代…

    2026年5月10日
    000
  • 开发基于ChatGPT的自动写诗系统:Python让诗意流淌

    开发基于ChatGPT的自动写诗系统:Python让诗意流淌 自古以来,诗歌一直是人类表达感情和思想的一种重要方式。然而,写好一首优美的诗歌并不是每个人都能做到的,特别是对于那些没有诗歌创作经验的人来说。但是,现代技术的发展让自动写诗成为可能,人们可以利用计算机和人工智能技术来自动生成诗歌。在这篇文…

    2026年5月10日
    000
  • Solana基金会主席 Lily 上海演讲:万物皆可代币化

    在 2025 年 10 月 23 日至 27 日举行的第 11 届全球区块链峰会期间,Solana 基金会主席 Lily Liu 在上海区块链国际周上发表了主题演讲,阐述了“万物皆可代币化”的愿景,并分享了 Solana 在全球金融基础设施建设方面的战略布局。 Solana 的愿景:万物皆可代币化 …

    2026年5月10日
    000
  • html搜索框如何跳转_实现HTML搜索框跳转搜索结果【结果】

    HTML搜索框跳转失败多因表单action或参数错误,可通过五种方法解决:一、百度用form提交至https://www.baidu.com/s?q=关键词;二、Google类似,action为https://www.google.com/search;三、JavaScript拼接必应URL并loc…

    2025年12月23日
    400
  • 从OpenAI API JSON响应中高效提取生成文本内容

    本教程详细指导开发者如何从openai api返回的json格式响应中准确提取生成的文本。通过利用`json.parse()`方法解析响应字符串,并访问`choices[0].text`属性,可以安全、高效地获取核心文本内容,从而避免直接字符串操作的潜在问题,确保api数据处理的健壮性。 OpenA…

    2025年12月23日
    500
  • ai做html怎么运行_AI生成html运行步骤【教程】

    答案是使用AI生成HTML代码后,将其保存为.html文件并用浏览器打开即可运行。具体步骤为:1. 在AI工具中输入需求生成HTML代码;2. 将代码复制到文本编辑器并另存为index.html,编码选UTF-8,类型选“所有文件”;3. 双击该文件用浏览器打开,若无法正常显示需检查文件后缀、编码及…

    2025年12月23日
    000
  • HTML语义化未来趋势有哪些_HTML语义化在Web发展中的趋势与展望

    HTML语义化正朝着智能、高效、包容发展,深度融合结构化数据与ARIA属性,提升机器理解;2. 组件化趋势推动可复用语义结构普及,Web Components实现自定义语义标签;3. 语义化助力性能优化与可访问性,支持懒加载与内容优先级划分;4. AI工具将自动生成语义化代码并辅助检测,降低实践门槛…

    2025年12月23日
    300
  • 如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

    使用HTML构建标签结构,CSS3添加旋转与过渡效果,JavaScript生成随机HSL颜色并设置字体大小,实现动态交互的标签云组件。 要在网页中实现一个动态的标签云组件,结合 HTML、CSS3 变换和随机颜色生成算法,可以按照以下步骤操作。这个组件不仅能提升页面视觉效果,还能通过色彩和旋转增加交…

    2025年12月23日
    000
  • 如何在Go Gin应用中集成前端JavaScript模块(如Sentry)

    本文探讨了在Go Gin框架下,通过HTML模板服务前端页面时,如何有效集成JavaScript模块(如Sentry)。针对浏览器不直接支持Node.js模块导入语法的问题,文章详细阐述了利用CDN引入Sentry SDK的解决方案,并提供了具体的代码示例,帮助开发者实现前端错误监控功能,避免了复杂…

    2025年12月23日
    100
  • HTML数据如何实现数据智能 HTML数据智能分析的技术架构

    实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统,首先通过爬虫技术获取网页数据并进行清洗标准化,接着利用DOM树分析与NLP技术提取结构化信息,随后将数据存入合适数据库或数据仓库并建立元数据管理机制,进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析,最终…

    2025年12月23日
    100
  • html官网浏览入口_html网站设计免费平台

    html官网浏览入口在https://www.codepen.io,该平台支持实时预览代码、创建Pen项目、Fork开源示例,可添加外部资源,具备点赞评论收藏等社区互动功能,设有挑战活动与作品集分类,开放API接口,界面简洁适合初学者,在线编写无需配置环境,支持多种预处理器和响应式测试。 html官…

    2025年12月23日
    000
  • HTML5 section怎么用_HTML5内容分区标签应用场景说明

    在HTML5中,标签用于定义文档中具有明确主题的独立内容区块,需包含标题以体现其结构性与语义性,常用于文章章节、产品模块等场景,区别于无语义的和可独立分发的。 在HTML5中,section 标签用于定义文档中的一个独立内容区块。它不是简单的容器,而是有语义的结构化标签,表示文档中一个主题性的分区,…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信