LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

在计算机科学领域,图形结构由节点(代表实体)和边(表示实体之间的关系)构成。

图无处不在。

互联网可以被视为一个庞大的网络,搜索引擎利用图形化的方式来组织和展示信息。

LLMs主要在常规文本上训练,因此将图转化为LLMs可理解的文本是一项具有挑战性的任务,因为图结构与文本有着根本的不同。

在ICLR 2024上,一支来自谷歌的团队探索了如何将图形数据转换为适合LLMs理解的形式。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

论文地址:https://openreview.net/pdf?id=iuxr1ccrsi

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

使用两种不同的方法将图形编码为文本,并将文本和问题反馈给LLM的过程

他们还开发了一个名为GraphQA的基准,用于探究解决不同图推理问题的方法,并展示了如何以一种有利于LLM解决图形相关问题的方式来表达这些问题。

使用正确的方法,使得LLMs在图形任务上最高得以提升60%的性能。

GraphOA:一场对LLMs的「考试」

首先,谷歌团队设计了GraphQA基准测试,它可以被看作是一门考试,旨在评估LLM针对特定于图形问题的能力。

GraphOA通过使用多种类型的图表,确保广度和连接数量的多样性,以寻找LLMs在处理图形时可能存在的偏差情况,并使整个过程更接近LLMs在实际应用中可能遇到的情况。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

使用GraphIQA对LLMs进行推理的框架

虽然任务很简单,比如检查边是否存在、计算节点或者边的数量等等,但这些任务都需要LLMs理解节点和边之间的关系,对于更复杂的图形推理至关重要。

同时,团队还探索了如何将图转换为LLMs可以处理的文本,比如解决了如下两个关键问题:

节点编码:我们如何表示单个节点?节点可以包括简单整数、常用名称(人名、字符)和字母。

边缘编码:我们如何描述节点之间的关系?方法可以包括括号符号、短语(如「是朋友」)和符号表示(如箭头)。

最终,研究人员通过系统地结合各种节点和边的编码方式,产生了像下图中展示的那些函数。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

图形编码函数的例子

LLMs表现怎么样呢?

研究团队在GraphOA上进行了三个关键实验:

测试LLMs处理图形任务的能力测试LLMs的大小对性能的影响测试不同图形形状对性能的影响

在第一个实验中,LLMs表现平平,在大多数基本任务上,LLMs的表现并不比随机猜测好多少。

但编码方式显著影响结果,如下图所示,在大多数情况下,「incident」编码在大多数任务中表现出色。选择合适的编码函数可以极大的提高任务的准确度。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

基于不同任务准确度的各种图编码器函数的比较

在第二个测试中,研究人员在不同大小的模型上测试了相同的图形任务。

就结论而言,在图形推理任务中,规模更大的模型表现更好,

然而有趣的是,在「边存在性」任务(确定图中两个节点是否相连)中,规模并不像其他任务那么重要。

即使是最大的LLM在循环检查问题上(确定图中是否存在循环)也无法始终击败简单的基线解决方案。这表明LLMs在某些图任务上仍有改进的空间。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

模型容量对PaLM 2-XXS、XS、S和L的图推理任务的影响

在第三个测试中,对于图形结构是否会影响LMMs解决问题的能力,研究人员通过GraphOA生成不同结构的图形进行分析。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

GraphQA不同图形生成器生成的图形示例。ER、BA、SBM和SFN分别是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

结果得出,图的结构对LLMs的性能有很大影响。

例如,在一个询问循环是否存在的任务中,LLMs在紧密相连的图形中表现出色(这里循环很常见),但在路径图中表现不佳(循环从不发生)。

但同时提供一些混合样本有助于LLMs适应,比如在循环检测任务中,研究人员在提示中添加了一些包含循环和一些不包含循环的示例作为少样本学习的例子,通过这种方式提高了LLMs的性能。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

在不同的图任务上比较不同的图生成器。主要观察结果是,图结构对LLM的性能有显著影响。ER、BA、SBM和SFN分别指的是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

云雀语言模型 云雀语言模型

云雀是一款由字节跳动研发的语言模型,通过便捷的自然语言交互,能够高效的完成互动对话

云雀语言模型 54 查看详情 云雀语言模型

这仅仅是让LLMs理解图的开始

在论文中,谷歌团队初步探索了如何将图形最佳地表示为文本,以便LLMs能理解他们。

在正确编码技术的帮助下,显著提高了LLMs在图形问题上的准确性(从大约5%到超过60%的改进)。

同时也确定了三个主要的影响因子,分别为图形转换为文本的编码方式、不同图形的任务类型、以及图形的疏密结构。

这仅仅是让LLMs理解图的开始。在新基准测试GraphQA的帮助下,期待进一步研究,探索LLMs的更多可能性。

以上就是LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/618542.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 05:21:27
下一篇 2025年11月11日 05:21:56

相关推荐

  • html的盒模型详解

    这次给大家带来html的盒模型详解,使用html盒模型的注意事项有哪些,下面就是实战案例,一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素: –生成该盒的元素是否设置了’width’或&#82…

    好文分享 2025年12月21日
    000
  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • AI 越聪明越不听话!新研究:最强推理模型指令遵循率仅 50%

    如果面前有两个 ai 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

    2025年12月3日 硬件教程
    200
  • 《梦幻西游》全新赛事祥瑞即将来袭,剪影图曝光

    《梦幻西游》电脑版全新赛事祥瑞曝光,11月将会和广大玩家正式亮相!你们猜猜这只祥瑞是以什么为原型做的设计,以及和梦幻接下来的什么活动有关 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻…

    2025年12月2日 行业动态
    000
  • 《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!

    《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队! 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!的详细内容,更多请关注…

    2025年12月2日
    000
  • 探究词表选择对语言模型训练的影响:一项具有突破性的研究

    语言模型受不同词表的影响有哪些?如何平衡这些影响? 在最近的一项实验中,研究者对16个语言模型进行了不同的语料预训练和微调。这次实验使用了NanoGPT,一种小规模的架构(基于GPT-2 SMALL),共训练了12个模型。NanoGPT的网络架构配置为:12个注意力头、12层transformer,…

    2025年12月2日 科技
    100
  • ICCV’23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶

    在法国巴黎举行的计算机视觉顶峰大会iccv 2023刚刚结束! 今年的最佳论文奖,简直是“神仙打架”。 例如,获得最佳论文奖的两篇论文中,就包括颠覆文生图AI领域的著作——ControlNet。 自从开源以来,ControlNet在GitHub上已经获得了24k个星。无论是对于扩散模型还是整个计算机…

    2025年12月2日 科技
    000
  • 谷歌:非等频采样时间序列表示学习新方法

    在时间序列问题中,有一种类型的时间序列不是等频采样的,即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究,但是在这种不规则采样的时间序列中研究比较少,并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别 今天介绍的这篇文章,在不规则采样的时间…

    2025年12月2日 科技
    000
  • 最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星

    如果你曾经与任何一款对话式 AI 机器人交流过,你一定会记得一些令人感到非常沮丧的时刻。比如,你在前一天的对话中提到的重要事项,被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文,就像为考试而临时抱佛脚的学生,稍加盘问就会「露出马脚」。 如果AI助手能够在聊天中根据上下文参考…

    2025年12月2日 科技
    000
  • 令人惊讶的时间冗余方法:降低视觉Transformer计算成本的新途径

    Transformer最初是为自然语言处理任务而设计的,但现在已经被广泛应用于视觉任务。视觉Transformer在多个视觉识别任务中展现出了出色的准确性,并在图像分类、视频分类和目标检测等任务中取得了当前最佳的表现 视觉 Transformer 的一大缺点是计算成本高。典型的卷积网络(CNN)处理…

    2025年12月2日 科技
    200
  • 努比亚推出自研星云大模型:编程性能国内排名第一

    7月23日消息,今天下午,努比亚举行努比亚ai+双旗舰新品发布会,推出自研的星云大模型。近年来,ai技术正值井喷式的爆发,努比亚定义了“al+”的产品战略和理念,联合ai大模型研发团队潜心钻研,重磅推出自研的星云大模型,提供了自然语言大模型、视觉大模型等一系列高度专业的ai大模型,模型能力行业遥遥领…

    2025年12月2日 行业动态
    000
  • 思维链如何释放语言模型的隐藏能力?最新理论研究揭示其背后奥秘

    大模型涌现中最神秘的现象之一是思维链提示(cot),尤其在解决数学推理和决策问题方面展现出惊人的效果。cot到底有多重要呢?它背后成功的机制是什么?本文中,北大的几位研究者证明了cot在实现大语言模型(llm)推理中是不可或缺的,并从理论和实验角度揭示了cot如何释放llm的巨大潜力。 最近的研究发…

    2025年12月2日 科技
    000
  • BAT方法:AAAI 2024首个多模态目标追踪通用双向适配器

    目标跟踪是计算机视觉的基础任务之一,近年来,单模态(RGB)目标跟踪取得了重大进展。然而,由于单一成像传感器的限制,我们需要引入多模态图像(如RGB、红外等)来弥补这一缺陷,以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息,增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟…

    2025年12月1日 科技
    100
  • 想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

    Sora 在 2024 年初的惊艳表现成为了新的标杆,激励着所有研究文生视频的人士争相追赶。每个研究者都怀着复现 Sora 成果的渴望,争分夺秒地努力着。 根据 OpenAI 披露的技术报告,Sora 的一个重要创新点是将视觉数据转换为 patch 的统一表示形式,并通过 Transformer 和…

    2025年12月1日 科技
    000
  • 微软6页论文爆火:三进制LLM,真香!

    这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的LLM,都将是1.58 bit的。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 具体而言,这项研究提出的方法叫做BitNet b1.58,可以说是从大语言模型“根儿”上的…

    2025年12月1日 科技
    000
  • 几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling

    在标准的UNet结构中,long skip connection上的scaling系数 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 一般为1。 然而,在一些著名的扩散模型工作中,比如Imagen, Score-based generati…

    2025年12月1日 科技
    000
  • 揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 引子:揭开扩散模型及其“脊梁骨”的神秘面纱 如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重…

    2025年12月1日 科技
    000
  • LLaMa 3或将推迟到7月发布,剑指GPT-4,从Gemini吸取教训

    过去的图像生成模型经常因为主要呈现白人形象而受到批评,而谷歌的 Gemini 模型则因为极端的矫枉过正而陷入困境。它的生成图像结果变得过分谨慎,与历史事实出现显著偏差,令用户感到惊讶。谷歌声称,该模型的谨慎程度超出了开发者的预期。这种谨慎不仅体现在生成的图像中,还表现在通常将一些提示视为敏感提示,进…

    2025年12月1日 科技
    000

发表回复

登录后才能评论
关注微信