GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三

claude 3的竞技场排名终于来了:

短短3天内,20000张投票,将榜单的流量推向空前。

最终,Claude 3最强的“大杯”模型Opus得分1233,成为第一个能和GPT-4-Turbo一较高下的选手。

“中杯”Sonnet也还不错,和GPT-4的两个旧版本不相上下。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三图片

不过总的来说,还是GPT-4系列占据上风。

Claude 3的表现和宣传有些许出入。如网友总结:

GPT-4还是大模型之王!

但,免费的“中杯”Claude 3(Sonnet)更物超所值。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三图片

大模型竞技场出炉,“新王”排第三

Claude 3发布时官方的宣传是全面超过了GPT-4,但没提是哪个版本的GPT-4。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三图片

竞技场榜单(LMSYS Chatbot Arena Leaderboard)的最新更新,帮咱摸清了。

来看详细情况。

排在第一名的是OpenAI去年11月推出的GPT-4 Turbo,也就是:

GPT-4-1106-preview。

它功能更强价格也更便宜,具有128k上下文,训练数据从此前的2021年9月更新到2023年4月。

与它并列第一的是GPT-4 Turbo最新的版本,今年一月发布的:

GPT-4-0125-preview。

它的训练数据更广,扩展到了2023年12月。

两者均取得了1251的分数。

接着才是Claude 3(训练数据截止到2023年8月)。

它的最强版本Opus得分1233,比GPT-4 Turbo低了18分。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三图片

这个差距相比起来不算太大,毕竟再往下看:

它比GPT-4的两个版本(0314、0613)分别高了48分、72分。

至于中等性能的Claude 3 Sonnet,则排名第6,位于GPT-4这两个版本之间:

Claude Claude

Anthropic发布的与ChatGPT竞争的聊天机器人

Claude 374 查看详情 Claude

不过只比0314版低5分,大有潜力一举超越。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三图片

所以总的来说,官方宣传的也算没大毛病,全面超越老版GPT-4,但离GPT-4 Turbo还有点距离,尽管不算太大。

——从此榜单的评比机制等情况来看,它的结果还是相当有业内认可度的。

它由“小羊驼”(Vicuna)的作者团队发起。

但裁判官不是“小羊驼”,更不是GPT-4,而是基于人类偏好。

详细来说,也就我们随机向两个匿名模型提出任意问题,然后评价它们各自的回答,把票投给更好的那一个。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三图片

如果一轮投不出,咱可以选择继续提问。如果聊天中模型不小心透露了自己的身份,投票则作废。

特别的,计分规则采用Elo机制来保证公平(玩王者荣耀的朋友都熟)。

举个例子:如果某个模型输了,但它的分数不一定低,因为它本身实力就弱,这是预料之中。

截止目前,这个榜单可以说是非常火爆,已经有全球73个模型参与挑战,共收到了网友们37万张+投票。

通义千问挤进前10

除了Claude 3,我们再看看其他表现亮眼的选手。

首先要提的就是基于Gemini Pro的Bard,排名第四,仅次于GPT-4Turbo和Claude 3。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三图片

可以说是有点让人惊喜。

网友戏谑:

谷歌这是生生在在排行榜上开了个“洞”啊。

并连忙艾特JeffDean和DeepMind负责人:喂,加把劲儿啊(旺柴)

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三图片

然后要说的就是阿里通义千问(1.5版本,上个月发布)。

它在本次排名中挤进了前十、并列第九,是国内选手中表现最好的。

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三图片

被它甩在身后的,除了其他国产选手,还有Claude 2、Gemini Pro和GPT-3.5等等。

完整榜单:https://www.php.cn/link/e39505ef839c38f61139ae78da3f7615
参考链接:https://www.php.cn/link/30637ce29549ac951061fd211d43c3b0

table{ border-collapse:collapse;/*表格边框合并*/ border:1px solid #ddd;/*表格边框风格*/ width:100%;/*表格宽度*/ margin:10px 0;/*表格外边距*/ font-size:14px;/*字体大小*/ } td,th{/*表格单元格*/ padding:10px; border:1px solid #ddd; text-align:center; } 王者荣耀相关攻略 王者荣耀星之破晓测试资格获得方法 荣耀Magic6至臻版海报曝光,大胆DECO设计引领潮流 荣耀Magic6至臻版官图曝光,天穹紫与墨岩黑演绎自然之美 荣耀Magic6至臻版官图公布:方寸手机再现壮美山河 荣耀Magic6至臻版提前开启预售!1.5K双孔四曲屏+50Mp主摄 王者荣耀攻略大全 动态范围 15EV,荣耀 Magic6 至臻版 / RSR 保时捷设计号称“主摄全球首发车规级 LOFIC 技术” 荣耀Magic6至臻/RSR保时捷设计版发布在即,全新单反级相机技术引领手机摄影新潮流 荣耀全球首发OV50K:曝华为Mate旗舰也在测试它 荣耀最强影像!荣耀Magic6至臻版/RSR保时捷设计首发车规级LOFIC技术 荣耀Magic6至臻版全球首发!官方科普LOFIC技术 荣耀全新旗舰亮相:搭载单反级相机与车规级LOFIC技术 荣耀Magic6至臻版真机上手:圆角矩形后摄独一无二 辨识度拉满 荣耀Magic6系列首发LOFIC技术:手机摄影的动态范围新篇章 Magic6 RSR 保时捷设计即将亮相!荣耀 2024 春季旗舰新品发布会定档 3 月 18 日 王者荣耀逆境之光机制是什么 境之光机制作用介绍 10倍抗刮耐摔!荣耀Magic6至臻版/保时捷设计搭载荣耀金刚巨犀玻璃 王者荣耀机关百炼什么时候上线 《王者荣耀》s35段位继承表一览 《王者荣耀》碎片商店刷新周期介绍一览 王者荣耀机关百炼攻略 《王者荣耀》逆境之光机制介绍 荣耀 Magic6 至臻版玻璃堪比陶瓷 开启手机 0 贴膜时代 王者荣耀扁鹊无尽旅途皮肤怎么获取 获取攻略 王者荣耀机关百炼上线时间一览 安卓转移到ios王者荣耀怎么转?王者荣耀安卓怎么转IOS 荣耀 Magic6 系列新品将搭载荣耀叠光绿洲护眼屏 3 月发布会大盘点 科技新品齐亮相 小米汽车成最大看点 王者荣耀机关百炼怎么玩 王者荣耀宝箱钥匙链接打不开解决方法

以上就是GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/425930.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 11:35:09
下一篇 2025年11月7日 11:36:35

相关推荐

  • 表单中的AI助手怎么集成?如何添加智能填写建议?

    表单中添加ai助手的核心是通过前后端协同实现智能填写建议,具体需从后端智能服务构建、前端交互逻辑、性能优化及复杂场景处理等方面入手。首先应根据需求选择合适的ai能力:若仅需关键词匹配,可采用轻量级规则引擎或本地模型;若需语义理解,则调用大型语言模型(llm)api如gpt、文心一言等更为合适。后端需…

    2025年12月22日
    000
  • 解决GPT-3.5 API生成无关代码的问题:优化模型选择与提示工程

    在使用GPT-3.5 API构建应用时,text-davinci-003模型有时会生成不相关或意外的代码片段,尤其是在处理代码或复杂对话任务时。本文旨在解决这一问题,核心在于强调模型选择的重要性,推荐使用更适合此类任务的指令遵循模型(如gpt-3.5-turbo或gpt-4),并深入探讨如何通过精细…

    2025年12月20日
    000
  • 如何将兰链用于AI工作流程自动化

    引言 在飞速发展的AI领域,自动化是提升效率和可扩展性的关键。LangChain是一个开源框架,它提供强大的工具,用于将大型语言模型(LLM)集成到应用程序中。无论您是构建聊天机器人、数据处理管道还是智能决策系统,LangChain都能通过无缝连接不同的组件,实现AI工作流的自动化。本文将探讨如何利…

    2025年12月19日
    000
  • Netflix,但更好

    免责声明:本项目与Netflix无关,仅为技术实验。 超越Netflix:构建更智能的电影推荐系统 Netflix作为流媒体巨头,拥有超过2亿用户和17000多部电影及电视节目,其推荐系统功不可没。该系统基于用户观看历史、相似节目、用户趋势和热门剧集等数据进行推荐。但如果我们能以更简便的方式复制这一…

    2025年12月19日
    000
  • 如何在双子座AI中生成结构化输出(JSON,YAML)

    本文介绍如何使用google gemini api快速生成高质量的api文档,并演示如何灵活地输出json或yaml格式的结果。作者shrijith venkatrama,hexmos创始人,分享了liveapi的构建过程,这是一个通过代码生成api文档的强大工具。 步骤1:获取Gemini API…

    2025年12月19日
    000
  • 节点&#s googlegenerativeai:将AI技术纳入JavaScript

    概述 近年来,人工智能技术飞速发展,开发者们迫切需要将AI融入应用之中。Google 的 googlegenerativeai Node.js 包为 JavaScript 开发者提供了一种便捷途径,利用 Gemini 模型构建强大的AI功能。 该包也支持 Python 和 Go 版本,并提供 RES…

    2025年12月19日
    100
  • 人工智能工具市场

    AIprophetic.com 网站文章列表: 2025年: 2025-01-24: 人工智能工具市场概览 (https://www.php.cn/link/1c52486ff0b2a44fbfefeb15d21f53ae)2025-01-24: ChatGPT 故障排除及替代方案 (https:/…

    2025年12月19日
    000
  • 代码异味 – 非命令式函数名称

    清晰的函数命名:避免歧义,提升代码可读性 简而言之:含糊不清的函数名会隐藏其功能,令读者困惑。请使用具有描述性、面向动作的名称。 问题 函数用途不明确认知负担增加上下文误导可读性降低协作困难功能隐藏 解决方案 使用面向动作的动词使用描述性名称反映函数目的避免通用术语提供有意义的上下文明确表达单一职责…

    2025年12月19日 好文分享
    000
  • 克劳德·十四行诗 vs GPT-4o

    本案例研究对claude 3.5 sonnet和gpt-4o两种人工智能模型进行了深入比较,涵盖性能、定价和具体应用场景,并结合社区反馈、基准测试和实际使用经验。 Claude 3.5 Sonnet:智能且人性化 Claude 3.5 Sonnet是什么? Claude 3.5 Sonnet是Ant…

    2025年12月19日 好文分享
    000
  • 轨道:太阳系之旅

    去年十月,Masons团队参与了2024年NASA Space Apps Cairo黑客马拉松,并开发了一个令人振奋的项目——Orbit。Orbit是一个交互式3D网页应用,能够模拟太阳系并追踪近地天体(NEO)。它基于Next.js、Three.js和Golang后端构建,旨在提供宇宙的实时信息,…

    2025年12月19日
    000
  • LightUp 简介:人工智能驱动的网络注释

    在当今的数字世界中,我们不断受到信息的轰炸。无论是阅读文章、分析报告还是研究新主题,在选项卡之间跳转以收集背景信息或见解都会扰乱我们的流程和生产力。这就是 lightup 的用武之地:一款人工智能驱动的浏览器扩展程序,旨在帮助您保持专注、获得即时深度并直接在您正在查看的页面上扩展您的理解。 问题 您…

    2025年12月19日
    000
  • 自写 Lang 图状态

    第一人工智能响应: 输出:感谢您伸出援手,.我很乐意为您提供帮助,但我想确保我完全理解您的需求。您能否提供有关您正在寻找的内容的更多详细信息?您分享的信息越多,我就越能提供帮助!我很乐意尽我所能地帮助你。您想进一步探索某个特定领域吗?您的意见将帮助我根据您的具体需求定制我的帮助。我完全致力于让您的体…

    2025年12月19日
    000
  • lambda演算的数学

    你认为人类发现了还是发明了计算? 我倾向于发现,因为图灵机和丘奇的 Lambda 微积分在 1936 年彼此独立地形式化,但两者也都具有普遍的表达能力(允许你计算一切)。非常不同,但 100% 等效。 我不是在谈论硬件计算机的发明,由于电子电路及其晶体管,它可以采取各种形式并普遍实现这些概念。我在这…

    2025年12月19日
    100
  • AI 星座:Nextjs 和 Gemini 的体验

    大家好! 我担任后端开发人员已有几年了,我一直在寻找新技术。最近,我对人工智能和占星学的结合产生了兴趣,并决定使用 Gemini API 创建一个星座预测生成器。 项目: 在这个项目中,我使用 Next.js 作为前端,这是学习新框架的绝佳机会。在后端,我使用 Next.js 和 GEMINI AP…

    2025年12月19日
    000
  • XIIAI人工智能驱动的MVC框架

    早上好! 我很高兴分享我使用 Bolt.new 创建的新框架,该框架可自动生成 AI 驱动的 MVC 项目。想象一下使用 AI 生成的代码工具来构建整个 AI 自动化 MVC 生成的项目!在此演示中,您将看到创建任何应用程序是多么容易。您需要做的就是设置界面,连接模型响应的控制器,选择您的技术堆栈,…

    2025年12月19日
    000
  • 测试 LLM 应用程序:模拟 SDK 与直接 HTTP 请求中的不幸事件

    介绍 让我在这篇博客的前言中说,这个与我的其他博客不同,在这些博客中我能够逐步完成完成任务的步骤。相反,这更多地反映了我在尝试向我的项目 gimme_readme 添加测试时遇到的挑战,以及我在此过程中学到的关于测试 llm 支持的应用程序的知识。 背景 本周,我和我的开源开发同学的任务是向包含大型…

    2025年12月19日
    000
  • C++移动应用程序开发的商业应用和潜在机会

    c++++在移动应用程序开发中广泛应用,包括游戏、金融、医疗保健、企业和人工智能应用程序。凭借其优异的性能、跨平台能力和广泛的应用领域,c++为企业和开发者提供了在快速增长的移动市场取得成功的巨大机会,包括移动游戏市场、医疗保健技术、物联网、ar/vr应用程序和云计算。 C++ 移动应用程序开发的商…

    2025年12月18日
    100
  • Gemini Pro API安全设置详解:如何有效避免内容阻断

    gemini pro api在自定义安全设置后仍可能阻断回复。本文将详细解释为何直接设置字典无效,并提供正确的python代码示例,指导开发者通过导入`safetysetting`、`harmcategory`和`harmblockthreshold`等类,以对象列表形式配置安全阈值,从而有效管理内…

    2025年12月14日
    000
  • 正确配置Gemini Pro API安全设置以避免内容屏蔽

    本文旨在解决gemini pro api在使用自定义安全设置时仍遭遇内容屏蔽的问题。我们将深入探讨api安全设置的正确配置方法,指出常见误区,并提供基于`safetysetting`对象的标准实现方案,确保开发者能有效管理内容过滤,提升api调用的成功率。 在使用Google Gemini Pro …

    2025年12月14日
    000
  • 解决Gemini Pro API内容安全策略阻断回复的正确姿势

    本文旨在解决Gemini Pro API在使用`safety_settings`时仍遭遇内容阻断的问题。核心在于,许多开发者错误地使用字典配置安全设置,而API实际期望的是一个`SafetySetting`对象列表。本教程将详细指导如何正确导入相关类并构建符合API要求的安全设置,确保即使是敏感内容…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信