OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

最近,Matthias Plappert的一篇推文点燃了LLMs圈的广泛讨论。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

Plappert是一位知名的计算机科学家,他在HumanEval上发布了自己对AI圈主流的LLM进行的基准测试结果。

他的测试偏向代码生成方面。

结果令人大为不震撼,又大为震撼。

OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

意料之内的是,GPT-4毫无疑问霸榜,摘得第一。

意料之外的是,OpenAI的text-davinci-003异军突起,拿了个第二。

Plappert表示,text-davinci-003堪称一个「宝藏」模型。

而耳熟能详的LLaMA在代码生成方面却并不出色。

OpenAI霸榜

Plappert表示,GPT-4的性能表现甚至比文献中的数据还要好。

论文中GPT-4的一轮测试数据是67%的通过率,而Plappert的测试则达到了73%。

OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

在分析成因时,他表示,数据上存在差异有不少可能性。其中之一是他给到GPT-4的prompt要比论文作者测试的时候好上那么一些。

另一个原因是,他猜测论文在测试GPT-4的时候模型的温度(temperature)不是0。

「温度」是一个用于调整模型生成文本时创造性和多样性的参数。「温度」是一个大于0的数值,通常在 0 到 1 之间。它影响模型生成文本时采样预测词汇的概率分布。

当模型的「温度」较高时(如 0.8、1 或更高),模型会更倾向于从较多样且不同的词汇中选择,这使得生成的文本风险性更高、创意性更强,但也可能产生更多的错误和不连贯之处。

而当「温度」较低时(如 0.2、0.3 等),模型主要会从具有较高概率的词汇中选择,从而产生更平稳、更连贯的文本。

但此时,生成的文本可能会显得过于保守和重复。

因此在实际应用中,需要根据具体需求来权衡选择合适的「温度」值。

接下来,在点评text-davinci-003时,Plappert表示这也是OpenAI旗下一个很能打的模型。

虽然不比GPT-4,但是一轮测试有62%的通过率还是能稳稳拿下第二名的宝座。

Plappert强调,text-davinci-003最好的一点是,用户不需要使用ChatGPT的API。这意味着给prompt的时候能简单一点。

OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

此外,Plappert也给予了Anthropic AI的claude-instant模型比较高的评价。

他认为这个模型的性能不错,比GPT-3.5能打。GPT-3.5的通过率是46%,而claude-instant是54%。

当然,Anthropic AI的另一个LLM——claude,没有claude-instant能打,通过率只有51%。

Plappert表示,测试两个模型用的prompt都一样,不行就是不行。

OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

除了这些耳熟能详的模型,Plappert也测试了不少开源的小模型。

Plappert表示,自己能在本地运行这些模型,这点还是不错的。

不过从规模上看,这些模型显然没有OpenAI和Anthropic AI的模型大,所以硬拿它们对比有点以大欺小了。

OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

LLaMA代码生成?拉胯

当然,Plappert对LLaMA的测试结果并不满意。

从测试结果来看,LLaMA在生成代码方面表现很差劲。可能是因为他们在从GitHub收集数据时采用了欠采样的方法(under-sampling)。

OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

就算和Codex 2.5B相比,LLaMA的性能也不是个儿。(通过率10% vs. 22%)

OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

最后,他测试了Replit的3B大小的模型。

他表示,表现还不错,但和推特上宣传的数据相比差点意思(通过率16% vs. 22%)

Plappert认为,这可能是因为他在测试这个模型时所用的量化方式让通过率掉了几个百分比。

OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

在测评的最后,Plappert提到了一个很有意思的点。

某位用户在推特上发现,当使用Azure平台的Completion API(补全API)(而不是Chat API)时,GPT-3.5-turbo的性能表现更好。

Plappert认为这种现象具有一定合理性,因为通过Chat API输入prompt可能会相当复杂。

OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

以上就是OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/528118.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
在Docker容器中高效使用composer的最佳实践
上一篇 2025年11月9日 09:10:46
快看漫画在线网页版官网 免费漫画入口一键直达
下一篇 2025年11月9日 09:10:55

相关推荐

  • 使用JavaScript正则表达式验证DFA字符串

    本文旨在探讨如何高效地使用javascript的内置正则表达式功能来验证符合特定确定性有限自动机(dfa)规则的字符串。我们将对比手动构建状态转换表的复杂性与利用正则表达式的简洁与强大,并通过具体代码示例展示如何将dfa的正则表达式直接应用于字符串验证,从而实现更可靠、易维护的解决方案。 确定性有限…

    2026年5月10日
    000
  • 远程MySQL数据库连接指南:从本地PHP应用访问GCP实例数据库

    本文详细指导如何在本地php应用中连接到google cloud platform (gcp) 虚拟机实例上的远程mysql数据库。教程涵盖了数据库连接参数的配置、使用php pdo建立连接的方法、gcp环境下的网络配置要点,以及常见的安全和故障排除建议,旨在帮助开发者顺利实现跨环境的数据库通信。 …

    2026年5月10日
    000
  • Go语言中随机数生成器的正确播种方法与性能优化

    本文深入探讨Go语言中随机数生成器的正确播种方法,强调仅需在程序启动时播种一次的重要性。通过分析常见错误(如在循环中重复播种),我们展示了如何避免性能瓶颈并确保生成高质量的随机序列。文章提供了优化的代码示例,涵盖了高效的字符串构建技巧,旨在帮助开发者编写健壮且高效的随机数生成逻辑。 理解伪随机数生成…

    2026年5月10日
    000
  • lambda 表达式如何改善代码的可读性和简洁性?

    是的,lambda 表达式通过消除匿名内部类、减少冗余并增强可读性,提升了 java 代码的可读性、简洁性和可维护性。这些好处包括:消除匿名内部类,避免创建临时类。减少冗余,移除不必要的代码块和方法名。增强可读性,使代码更流畅且易于理解。提高可维护性,更易于阅读的代码也更易于维护。 Lambda 表…

    2026年5月10日
    000
  • Go语言大文件读取性能优化:理解I/O瓶颈与Goroutine的合理应用

    本文探讨Go语言中大文件读取的性能优化策略。针对常见的使用goroutine加速文件读取的误区,文章指出硬盘I/O是主要瓶颈,单纯增加CPU并发并不能提高读取速度。教程将解释I/O限制,并建议在数据处理环节而非读取环节考虑并发,以实现整体性能提升。 在处理go语言中的超大文件时,开发者常常会考虑使用…

    2026年5月10日
    000
  • 如何将一组数值规范化到0-1范围:基于最大值的权重计算

    本教程详细介绍了如何将一组数值规范化到0-1的范围,其中最小值映射到0(或接近0),最大值映射到1。通过将每个数值除以集合中的最大值来实现,这在需要根据相对大小而非总和百分比来表示数据(如css透明度)时非常有用。 引言:理解数值规范化需求 在数据处理和前端开发中,我们经常需要将一组原始数值转换到一…

    2026年5月10日
    000
  • 解决树莓派4B上cv2导入错误的专业指南

    本文旨在解决树莓派4b上导入opencv (cv2) 库时遇到的`importerror: undefined symbol: __atomic_store_8`错误。我们将探讨两种解决方案:一种是临时的`ld_preload`环境变量设置,另一种是推荐的、更持久的从源代码重新编译opencv的方法…

    2026年5月10日
    000
  • 自建服务器域名解析与配置详解:告别传统托管服务

    本文将详细阐述如何为自建网站(如基于Raspberry Pi)配置域名,解释域名系统(DNS)的工作原理,并指导读者通过域名注册商将域名与服务器IP地址关联。文章将区分域名注册与网站托管服务的概念,帮助读者理解自建域名所需的关键步骤,避免常见误区。 理解域名与DNS工作原理 在互联网世界中,域名是网…

    2026年5月10日
    000
  • Go语言实现最长公共子序列(LCS)回溯算法:深度解析索引一致性问题

    本文深入探讨go语言中最长公共子序列(lcs)回溯算法的常见索引问题。通过分析0-indexed字符串与1-indexed动态规划表之间的不一致,阐明了导致回溯结果缺失的原因。文章提供了修正后的go代码实现,并详细解释了递归基线和dp表访问逻辑的调整,旨在帮助开发者构建健壮、准确的lcs回溯功能。 …

    2026年5月10日
    000
  • XML编码声明重要吗?

    XML编码声明非常重要,它是确保文件正确解析的关键。它作为字节与字符之间的映射桥梁,明确告知解析器应使用何种编码读取文件。若声明缺失或与实际编码不一致,可能导致乱码或解析失败。根据XML 1.0规范,无声明时默认按UTF-8处理,但若文件实际编码为GBK等其他格式,便会出错。因此,必须在生成或编辑X…

    2026年5月10日
    000
  • XSLT如何输出HTML?

    <blockquote>XSLT输出HTML需定义xsl:output method="html",通过模板匹配XML节点生成HTML结构,利用xsl:value-of提取数据,xsl:attribute设置动态属性,并可嵌入link和…

    用户投稿 2026年5月10日
    000
  • 以太坊和比特币的区别_主要差异在哪里

    比特币是去中心化电子现金,专注价值存储与转移;以太坊是可编程平台,支持智能合约与去中心化应用,二者在定位、技术与生态上根本不同。 以太坊和比特币:不仅仅是数字资产的差异 当人们谈论加密世界时,比特币和以太坊是两个无法绕开的名字。虽然它们常常被并列提及,但实际上,两者在设计哲学、核心功能和未来愿景上存…

    2026年5月10日
    000
  • Python OpenCV 视频录制:解决0KB文件或损坏问题的教程

    本教程旨在解决使用Python OpenCV进行视频录制时,生成0KB或损坏MP4文件的问题。核心原因在于cv2.VideoWriter的写入分辨率与摄像头实际输出分辨率不匹配。文章将详细指导如何正确获取摄像头实际工作分辨率,并将其应用于视频写入器,确保录制过程顺畅,生成可播放的视频文件。 1. O…

    2026年5月10日
    000
  • 本地XAMPP服务器与Git仓库集成开发指南

    本教程旨在指导开发者如何高效地在本地xampp服务器上搭建并运行基于git版本控制的项目。通过在本地xampp环境中克隆远程git仓库,并在独立的开发分支上工作,可以实现与主服务器隔离的开发流程,确保本地测试的独立性与安全性,同时简化版本管理与代码协作。 前言:本地开发环境的重要性 在软件开发过程中…

    2026年5月10日
    000
  • Go语言中高效生成素数:Sieve of Atkin算法详解与实现

    本文旨在详细介绍在go语言中高效生成指定范围内素数的sieve of atkin算法。文章首先阐明了素数的定义及传统判断方法的不足,进而引入并解释了sieve of atkin算法的核心原理,包括其基于二次形式的素数筛选机制。最后,提供了一个完整的go语言实现示例,并对代码的关键部分进行解析,帮助读…

    2026年5月10日
    000
  • 开发基于ChatGPT的自动写诗系统:Python让诗意流淌

    开发基于ChatGPT的自动写诗系统:Python让诗意流淌 自古以来,诗歌一直是人类表达感情和思想的一种重要方式。然而,写好一首优美的诗歌并不是每个人都能做到的,特别是对于那些没有诗歌创作经验的人来说。但是,现代技术的发展让自动写诗成为可能,人们可以利用计算机和人工智能技术来自动生成诗歌。在这篇文…

    2026年5月10日
    000
  • 比特币和以太坊有什么区别?2025年主流加密货币投资价值分析

    比特币和以太坊最核心的区别在于其定位和功能。简单来说,比特币被誉为“数字黄金”,其主要价值在于作为一种去中心化的、总量恒定的价值存储手段,类似于一种抗通胀的数字资产。而以太坊则是一个“去中心化的世界计算机”,它不仅是一种加密货币(eth),更是一个强大的平台,允许开发者在其上构建和运行去中心化应用(…

    2026年5月10日
    000
  • HTML中正确引用本地图片:路径与常见问题解析

    HTML中正确引用本地图片:路径与常见问题解析HTML中正确引用本地图片:路径与常见问题解析HTML中正确引用本地图片:路径与常见问题解析HTML中正确引用本地图片:路径与常见问题解析

    本文提供了一份关于如何在HTML中正确嵌入本地图片的全面指南。它详细阐述了理解文件路径、确保HTML文件与图片文件之间的相对位置关系,以及正确指定图片文件扩展名的重要性。通过遵循本文提供的步骤和注意事项,开发者可以有效解决本地图片无法显示的问题,确保网页内容按预期呈现。 在网页开发过程中,引用本地图…

    2026年5月10日 用户投稿
    000
  • 实践CSS3选择器的代码演练

    CSS3选择器动手实践代码 CSS3选择器是Web开发中非常重要的一部分,它可以帮助我们更好地选择和控制HTML元素。在本文中,我们将使用具体的代码示例来学习和实践CSS3选择器的用法。 第一种选择器是元素选择器。它通过HTML元素的标签名进行选择。例如,我们可以使用以下代码选择所有的段落元素: p…

    2025年12月24日
    000
  • CSS中line-height详解(代码实例)

    元素的高度是由什么决定对于我们解决页面显示问题和布局页面都有很大的帮助。 常规的操作表现是为一个块级元素设置height属性,则其拥有了高度: .test { border: 1px solid #ccc; height: 100px; width: 100px; } 但是根据熟知,当我们不为元素设…

    2025年12月24日
    000

发表回复

登录后才能评论
关注微信