回顾NeurIPS 2023: 清华ToT推动大型模型成为焦点

近日,作为美国前十的科技博客,Latent Space对于刚刚过去的NeurIPS 2023大会进行了精选回顾总结。

在NeurIPS会议中,共有3586篇论文被接受,其中6篇获奖。虽然这些获奖论文备受关注,但其他论文同样具备出色的质量和潜力。实际上,这些论文甚至可能预示着AI领域的下一个重大突破。

那就让我们来一起看看吧!

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:qlora: efficient finetuning of quantized llms

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://openreview.net/pdf?id=OUIFPHEgJU

这篇论文提出了QLoRA,这是LoRA的一种更省内存但速度较慢的版本,它使用了几种优化技巧来节省内存。

总体而言,QLoRA使得在对大型语言模型进行微调时可以使用更少的GPU内存。

他们对一个新模型进行了微调,命名为Guanaco,仅用一个GPU进行了为期24小时的训练,结果在Vicuna基准测试中表现优于之前的模型。

与此同时,研究人员还开发了其他方法,如4-bit LoRA量化,其效果相似。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:DataComp: In search of the next generation of multimodal datasets

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://openreview.net/pdf?id=dVaWCDMBof

多模态数据集在最近的突破中扮演着关键角色,如CLIP、Stable Diffusion和GPT-4,但与模型架构或训练算法相比,它们的设计并没有得到同等的研究关注。

为了解决这一机器学习生态系统中的不足,研究人员引入了DataComp,这是一个围绕Common Crawl的新候选池中的128亿个图文对进行数据集实验的测试平台。

使用者可以通过DataComp进行实验,设计新的过滤技术或精心策划新的数据源,并通过运行标准化的CLIP训练代码,以及在38个下游测试集上测试生成的模型,来评估他们的新数据集。

结果显示,最佳基准DataComp-1B,允许从头开始训练一个CLIP ViT-L/14模型,其在ImageNet上的零样本准确度达到了79.2%,比OpenAI的CLIP ViT-L/14模型高出3.7个百分点,以此证明DataComp工作流程可以产生更好的训练集。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:Visual Instruction Tuning

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://www.php.cn/link/c0db7643410e1a667d5e01868827a9af

在这篇论文中,研究人员提出了首次尝试使用仅依赖语言的GPT-4生成多模态语言-图像指令跟随数据的方法。

通过在这种生成的数据上进行指令调整,引入了LLaVA:Large Language and Vision Assistant,这是一个端到端训练的大型多模态模型,连接了一个视觉编码器和LLM,用于通用的视觉和语言理解。

早期实验证明LLaVA展示了令人印象深刻的多模态聊天能力,有时展现出多模态GPT-4在未见过的图像/指令上的行为,并在合成的多模态指令跟随数据集上与GPT-4相比取得了85.1%的相对分数。

在对科学问答进行微调时,LLaVA和GPT-4的协同作用实现了92.53%的新的最先进准确性。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:Tree of Thoughts: Deliberate Problem Solving with Large Language Models

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://arxiv.org/pdf/2305.10601.pdf

语言模型越来越多地被用于广泛的任务中进行一般性问题解决,但在推理过程中仍受限于标记级别、从左到右的决策过程。这意味着它们在需要探索、战略前瞻或初始决策起关键作用的任务中可能表现不佳。

为了克服这些挑战,研究人员引入了一种新的语言模型推理框架,Tree of Thoughts(ToT),它在促使语言模型方面推广了流行的Chain of Thought方法,并允许在一致的文本单元(思想)上进行探索,这些单元作为解决问题的中间步骤。

ToT使语言模型能够通过考虑多条不同的推理路径和自我评估选择来做出刻意的决策,以决定下一步行动,并在必要时展望或回溯以做出全局性的选择。

实验证明,ToT显著提高了语言模型在需要非平凡规划或搜索的三个新任务上的问题解决能力:24点游戏、创意写作和迷你填字游戏。例如,在24点游戏中,虽然使用Chain of Thought提示的GPT-4只解决了4%的任务,但ToT实现了74%的成功率。 

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:Toolformer: Language Models Can Teach Themselves to Use Tools

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://arxiv.org/pdf/2302.04761.pdf

盘古大模型 盘古大模型

华为云推出的一系列高性能人工智能大模型

盘古大模型 35 查看详情 盘古大模型

语言模型表现出在从少量示例或文本指令中解决新任务方面的显著能力,尤其是在大规模情境下。然而,令人矛盾的是,它们在基本功能方面(如算术或事实查找),相较于更简单且规模较小的专门模型,却表现出困难。

在这篇论文中,研究人员展示了语言模型可以通过简单的API自学使用外部工具,并实现两者的最佳结合。

他们引入了Toolformer,这个模型经过训练能够决定调用哪些API、何时调用它们、传递什么参数以及如何最佳地将结果合并到未来的token预测中。

这是以自监督的方式完成的,每个API只需要少量演示即可。他们整合了各种工具,包括计算器、问答系统、搜索引擎、翻译系统和日历等。

Toolformer在与更大模型竞争的时候,在各种下游任务中取得了明显改善的零样本性能,而不会牺牲其核心语言建模能力。

论文题目:Voyager: An Open-Ended Embodied Agent with Large Language Models

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://arxiv.org/pdf/2305.16291.pdf

该论文介绍了Voyager,这是第一个由大型语言模型(LLM)驱动的,可以在Minecraft中连续探索世界、获取多样化技能并进行独立发现的learning agent。

Voyager包含三个关键组成部分:

自动课程,旨在最大程度地推动探索,

不断增长的可执行代码技能库,用于存储和检索复杂行为,

新的迭代提示机制,整合了环境反馈、执行错误和自我验证以改进程序。

Voyager通过黑盒查询与GPT-4进行交互,避免了对模型参数进行微调的需求。

根据实证研究,Voyager展现出强大的环境上下文中的终身学习能力,并在玩Minecraft方面表现出卓越的熟练度。

它获得了比先前技术水平高出3.3倍的独特物品,行进距离更长2.3倍,并且解锁关键技术树里程碑的速度比先前技术水平快15.3倍。

不过,虽然Voyager能够在新的Minecraft世界中利用学到的技能库从零开始解决新颖任务,但其他技术则难以泛化。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:Evaluating Cognitive Maps and Planning in Large Language Models with CogEval

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://openreview.net/pdf?id=VtkGvGcGe3

该论文首先提出了CogEval,这是一个受认知科学启发的系统评估大型语言模型认知能力的协议。

其次,论文使用CogEval系统评估了八个LLMs(OpenAI GPT-4、GPT-3.5-turbo-175B、davinci-003-175B、Google Bard、Cohere-xlarge-52.4B、Anthropic Claude-1-52B、LLaMA-13B和Alpaca-7B)的认知地图和规划能力。任务提示基于人类实验,并且不在LLM训练集中存在。

研究发现,虽然LLMs在一些结构较简单的规划任务中显示出明显的能力,但一旦任务变得复杂,LLMs就会陷入盲区,包括对无效轨迹的幻觉和陷入循环。

这些发现不支持LLMs具有即插即用的规划能力的观点。可能是因为LLMs不理解规划问题背后的潜在关系结构,即认知地图,并在根据基础结构展开目标导向轨迹时出现问题。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:Mamba: Linear-Time Sequence Modeling with Selective State Spaces

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://openreview.net/pdf?id=AL1fq05o7H

作者指出了目前许多次线性时间架构,如线性注意力、门控卷积和循环模型,以及结构化状态空间模型(SSMs),旨在解决Transformer在处理长序列时的计算效率低下问题。然而,这些模型在重要的语言等领域上并没有像注意力模型那样表现出色。作者认为这些

型的一个关键弱点是它们无法进行基于内容的推理,并进行了一些改进。

首先,简单地让 SSM 参数作为输入的函数,可以解决其离散模态的弱点,允许模型根据当前标记选择性地沿序列长度维度传播或忘记信息。

其次,尽管这种变化阻止了高效卷积的使用,但作者在循环模式下设计了一种硬件感知的并行算法。将这些选择性 SSM 集成到简化的端到端神经网络架构中,无需注意力机制,甚至不需要 MLP 模块 (Mamba)。

Mamba在推理速度上表现出色(比Transformers高5倍),并且在序列长度上呈线性缩放,在真实数据上的性能提高了,达到了百万长度序列。

作为一种通用的序列模型骨干,Mamba在语言、音频和基因组学等多个领域取得了最先进的性能。在语言建模方面,Mamba-1.4B模型在预训练和下游评估中均优于相同大小的Transformers模型,与其两倍大小的Transformers模型相匹敌。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

虽然这些论文在2023年没有获得奖项,但比如Mamba,作为一种能够革新语言模型架构的技术模型,评估其影响还为时过早。

明年NeurIPS会如何走向,2024的人工智能和神经信息系统领域又会如何发展,虽然目前众说纷纭,但又有谁能打包票呢?让我们拭目以待。

以上就是回顾NeurIPS 2023: 清华ToT推动大型模型成为焦点的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/429862.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 13:18:32
下一篇 2025年11月7日 13:19:34

相关推荐

  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • DevDocs— 开源的技术文档爬取和处理工具

    devdocs:程序员和ai开发者的效率利器 DevDocs是一款开源的技术文档爬取与处理工具,专为程序员和AI开发者打造。它利用智能爬虫技术,高效地收集和整理技术文档,将原本需要数周才能完成的任务缩短至数小时。DevDocs支持多线程爬取,速度快,并能自动识别和处理网站链接,支持1-5层深度爬取。…

    2025年12月5日
    000
  • BlenderMCP— 基于 MCP 集成的 3D 建模工具

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ MCP Market MCP Servers集合平台,帮你找到最好的MCP服务器 67 查看详情 BlenderMCP是什么 blendermcp是一种将blender与claude ai通过模…

    2025年12月4日 科技
    000
  • RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

    清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。 论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用,尤…

    2025年12月3日 科技
    100
  • SQLServer数据源驱动怎么选_SQLServer数据源驱动程序选择

    答案:选择SQL Server数据源驱动应根据应用语言和需求确定。Java应用首选Microsoft JDBC Driver,.NET应用推荐Microsoft.Data.SqlClient,二者在性能、功能支持和新特性集成上优于通用ODBC驱动;虽ODBC适用于跨平台或遗留系统,但原生驱动因更优的…

    2025年12月3日 数据库
    000
  • 持续80天超100万人在线!魔兽回归后在线数据创10年最佳

    自《魔兽世界》回归以来,这款风靡全球的经典多人在线角色扮演游戏再次在国内掀起了热潮。 在20周年玩家交流会上,官方宣布《魔兽世界》国服最高同时在线的玩家数同时在线人数持续80天超过了100万人。 如果以 Steam的公开数据为标准,仅《魔兽世界》国服的在线人数,就能登上全球第一。20岁的《魔兽世界》…

    2025年12月2日 行业动态
    000
  • 讲述mysql数据表几种有效优化方法

    下面我们要四种关于mysql数据表几种有效优化方法哦,从而提高mysql数据库在应用方面的数据吞吐能力。

    数据库 2025年12月2日
    000
  • mysql查询多少秒内的数据显示

    mysql查询多少秒内的数据显示

    数据库 2025年12月2日
    000
  • excel数据导入mysql数据库二种方法

    下面我们要讲二种excel数据导入mysql数据库方法了,这二种方法比较简单,也是很方便的,以前我把excel数据导入到mysql数据库都是用php程序来实例,现在我们不需要程序,用现有的工具就行了。

    数据库 2025年12月2日
    000
  • 精妙的SQL和SQL SERVER 与ACCESS、EXCEL的数据导入导出转换

    sqlserver 与access,excel互相导入导出代码 * 说明:复制表(只复制结构,源表名:a 新表名:b) select * into b from a where 11 * 说明:拷贝表(拷贝数据,源表名:a 目标表名:b) insert into b(a, b, c) select …

    数据库 2025年12月2日
    000
  • Oracle中的INTERVAL数据类型详解

    NTERVAL YEAR TO MONTH数据类型 Oracle语法: INTERVAL integer [- integer] {YEAR | MONTH} [(precision)][TO {YEAR | MONTH}] 该数据类型常用来表示一段时间差, 注意时间差只精确到年和月. precis…

    数据库 2025年12月2日
    000
  • Oracle数据分摊问题解析

    经常会碰到,由于业务需要,需要将某种汇总的数据按照一定的原则分摊给一堆数据。 其实,如果逻辑清晰的话,这类型的程序还是比较好些的。 本文重点是如果用简单的程序实现这种效果,而且不容易分摊分错。 所有的分摊问题,首先必须要搞清楚以下几点问题: 1 经常会碰到,由于业务需要,需要将某种汇总的数据按照一定…

    数据库 2025年12月2日
    000
  • MySQL怎么去除重复数据?

    这篇文章主要介绍了%ign%ignore_a_1%re_a_1% 去除重复数据实例详解的相关资料,需要的朋友可以参考下 MySQL 去除重复数据实例详解 有两个意义上的重复记录,一是完全重复的记录,也即所有字段均都重复,二是部分字段重复的记录。对于第一种重复,比较容易解决,只需在查询语句中使用dis…

    2025年12月2日
    000
  • Mysql删除重复的数据的方法

    这篇文章主要介绍了mysql删除重复的数据 mysql数据去重复,需要的朋友可以参考下 MySQL数据库中查询重复数据 select * from employee group by emp_name having count (*)>1; Mysql  查询可以删除的重复数据 启科网络PHP…

    2025年12月2日
    000
  • Go语言中正确地向切片追加元素:理解变量作用域与短声明

    本文深入探讨了Go语言中向切片追加元素时常见的陷阱——变量作用域与短声明(:=)的误用。通过分析一个具体的SQL查询结果切片构建案例,我们解释了为何在循环内部使用 := 会导致变量遮蔽和数据丢失,并提供了使用赋值操作符 = 进行正确追加的解决方案,帮助开发者避免此类编译错误和逻辑问题。 在go语言开…

    2025年12月2日 后端开发
    000
  • mysql能存储多少条数据

    %ignore_a_1%是中小型网站普遍使用的数据库之一,可是有很多人都并不清楚mysql到底能支持多大的数据量。下面我将带大家了解一下。 其实MySQL单表的上限,主要与操作系统支持的最大文件大小有关。 官方的介绍: MySQL 3.22 限制的表大小为4GB。由于在MySQL 3.23 中使用了…

    2025年12月2日 数据库
    000
  • 在表中设置外键实现的是哪一类数据完整性

    在表中设置外键实现的是参照完整性。 参照的完整性要求关系中不允许引用不存在的实体。与实体完整性是关系模型必须满足的完整性约束条件,目的是保证数据的一致性。参照完整性又称引用完整性。(推荐学习:MySQL视频教程) 参照完整性是关系模型的完整约束之一,属于数据完整性的一种,其余还有:实体完整性、用户自…

    2025年12月2日 数据库
    000
  • 瞎操心!前SE高管称多数玩家不介意游戏使用AI

    尽管生成式ai在游戏行业的应用持续引发争议,但近日,前square enix高管jacob navok公开表示,大多数玩家其实并不关心游戏是否采用ai技术。他指出,媒体对ai的反对声音多源于情感因素而非理性分析。 Jacob Navok在社交媒体上举例说明,热门撤离射击游戏《ARC Raiders》…

    2025年12月2日 行业动态
    000
  • Claude怎样用分步指令提示提准确_Claude用分步指令提示提准确【分步提示】

    明确任务分解可提升Claude回答精度:1、确定核心目标;2、拆解为连贯子任务;3、为每步编写独立指令并衔接逻辑。通过编号步骤引导输出,如要求“请按以下步骤回答”,列出“1、分析背景;2、识别关键因素;3、提出方案”等框架,并留出内容填充空间。加入“如果……则……”类条件判断提示,明确不同情境的响应…

    2025年12月2日 科技
    000
  • Claude怎样用任务拆解分步执行_Claude用任务拆解分步执行【任务分解】

    答案:通过明确目标、逆向推导阶段、细化行动、设置检查点与动态调整,可系统拆解复杂任务。首先定义具体目标并由Claude确认;接着倒推关键阶段并排序形成框架;再将各阶段分解为具体育动步骤,标注耗时与优先级;随后为每阶段设定交付物与验证标准,确保质量可控;最后在执行中根据反馈灵活调整任务结构,保持推进效…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信