商汤商量获SuperCLUE9月评测总榜子榜双第一，AI智能体方向受瞩目

程序猿 • 2025年11月8日 11:30:31 • 用户投稿 • 阅读 1

最近，superclue发布了9月份的总排行榜和各个分类任务榜单，商汤的sensechat 3.0在中文大模型总榜中排名第一。在新增的ai agent（ai智能体）子榜中，sensechat 3.0同样位居第一，超过了所有国内中文大模型以及gpt-3.5和claude 2，仅次于gpt-4的表现。这展示了商汤在大模型领域创新发展和释放生产力的优势，以及在探索agi道路上的积累和潜力

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

注：国外代表性模型（GPT4.0/Claude2/gpt-3.5）不参与排名。

SuperCLUE是中文通用大模型的综合性评测基准，旨在对大模型在各个能力维度上的表现进行全方位的评估，是国内最具专业性和代表性的中文大模型评测基准之一。此次评测选取了目前国内外最具代表性的20个通用大语言模型

商量总榜第一，客观题成绩超GPT-3.5

最新发布的SuperCLUE总排行榜和各个分类任务榜单，主要关注大模型的四个能力象限，分别是语言理解与生成，包括语言理解与抽取、上下文对、生成与创作、角色扮演；专业技能与知识，包括知识与百科、计算、代码、逻辑与推理；Agent智能体，包括工具使用、任务规划；安全性，包括系统安全、指令攻击，共计12项基础能力

商汤科技的SenseChat 3.0在总排行榜中以62.75分的总分位居第一，其中在OPT客观题部分，SenseChat 3.0的得分甚至超过了GPT-3.5，展示了在中文大模型方面极强的综合竞争力

商汤商量SenseChat于2023年4月正式推出，是国内最早的基于千亿参数大语言模型之一，并不断迭代更新。其背后依托的是商汤AI大装置SenseCore，目前上线GPU数量约30,000块，算力规模提升至6 ExaFLOPS，有效支持语言大模型的训练、升级迭代和服务。

商汤商量

商汤科技研发的AI对话工具，商量商量，都能解决。

36 查看详情

加快推动人工智能智能体的发展，加速迈向强人工智能

随着大模型发展，“聊天”已远远不能满足人们的要求，能够准确使用工具成为解放大模型生产力的关键。SuperCLUE新增的AI Agent（AI智能体）子榜，是业界首个AI Agent榜单，它重点评估了AI Agent在“工具使用”和“任务规划”两个关键能力上的表现。评测显示商汤商量SenseChat 3.0具备作为人类超级助手的潜力，可以根据人类需求自主完成任务，进而充分释放大模型的生产力，使其在 AI Agent 榜单上表现仅次于GPT-4，全面领先其余参评大模型。

目前全球领先的AI 智能体，几乎都以领先大模型GPT-4为核心驱动，它们借助强大的工具使用能力等，可将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。商量SenseChat 3.0作为领先的中文大模型，通过使用代码解释器、API调用和搜索三类常用工具来解决复杂任务，灵活搭建AI智能体应用，支撑企业的生产力革新。

目前，商汤科技已经与金融、手机、医疗、汽车、地产、能源、传媒、工业制造等多个垂直行业的500多家客户建立了紧密合作关系。商汤SenseChat作为一种功能强大的大型模型，不断快速提升，为商汤科技发展更强大、能够像人类一样进行交互的人工智能智能体，以及朝着通往人工通用智能的道路进行探索，提供了重要的基础和支持

以上就是商汤商量获SuperCLUE9月评测总榜子榜双第一，AI智能体方向受瞩目的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/481315.html

ai agent ai智能体 claude superclue 商汤商量

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

怎样在VSCode中设置代码模板？常用结构快速生成

上一篇 2025年11月8日 11:30:31

Win10系统电脑开机蓝屏提示错误代码0x000000ed的解决办法

下一篇 2025年11月8日 11:30:34

用户投稿

人工智能工具市场

AIprophetic.com 网站文章列表： 2025年: 2025-01-24: 人工智能工具市场概览 (https://www.php.cn/link/1c52486ff0b2a44fbfefeb15d21f53ae)2025-01-24: ChatGPT 故障排除及替代方案 (https:/…

程序猿
2025年12月19日
0000
代码异味 – 非命令式函数名称

清晰的函数命名：避免歧义，提升代码可读性简而言之：含糊不清的函数名会隐藏其功能，令读者困惑。请使用具有描述性、面向动作的名称。问题函数用途不明确认知负担增加上下文误导可读性降低协作困难功能隐藏解决方案使用面向动作的动词使用描述性名称反映函数目的避免通用术语提供有意义的上下文明确表达单一职责…

程序猿
2025年12月19日 • 用户投稿
0000
克劳德·十四行诗 vs GPT-4o

本案例研究对claude 3.5 sonnet和gpt-4o两种人工智能模型进行了深入比较，涵盖性能、定价和具体应用场景，并结合社区反馈、基准测试和实际使用经验。 Claude 3.5 Sonnet：智能且人性化 Claude 3.5 Sonnet是什么？ Claude 3.5 Sonnet是Ant…

程序猿
2025年12月19日 • 用户投稿
0000
用户投稿

轨道：太阳系之旅

去年十月，Masons团队参与了2024年NASA Space Apps Cairo黑客马拉松，并开发了一个令人振奋的项目——Orbit。Orbit是一个交互式3D网页应用，能够模拟太阳系并追踪近地天体（NEO）。它基于Next.js、Three.js和Golang后端构建，旨在提供宇宙的实时信息，…

程序猿
2025年12月19日
1000
用户投稿

自写 Lang 图状态

第一人工智能响应：输出：感谢您伸出援手，.我很乐意为您提供帮助，但我想确保我完全理解您的需求。您能否提供有关您正在寻找的内容的更多详细信息？您分享的信息越多，我就越能提供帮助！我很乐意尽我所能地帮助你。您想进一步探索某个特定领域吗？您的意见将帮助我根据您的具体需求定制我的帮助。我完全致力于让您的体…

程序猿
2025年12月19日
0000
用户投稿

lambda演算的数学

你认为人类发现了还是发明了计算？我倾向于发现，因为图灵机和丘奇的 Lambda 微积分在 1936 年彼此独立地形式化，但两者也都具有普遍的表达能力（允许你计算一切）。非常不同，但 100% 等效。我不是在谈论硬件计算机的发明，由于电子电路及其晶体管，它可以采取各种形式并普遍实现这些概念。我在这…

程序猿
2025年12月19日
1000
用户投稿

基于Schema文件实现无数据库连接的SQL语句生成

本文探讨了在不直接连接数据库的情况下，如何利用数据库schema文件生成sql语句的方法。我们将重点介绍通过提供详细的数据库概览信息给大型语言模型（llm），实现基于schema的sql查询生成，从而避免实际数据库连接，提升安全性和灵活性。内容涵盖了如何准备schema信息以及其在llm驱动的sql…

程序猿
2025年12月14日
0000
用户投稿

如何优化ChromaDB检索响应的完整性

在使用Langchain结合ChromaDB构建基于文档的问答系统时，用户有时会遇到检索到的响应不完整的情况，尤其是在处理大型或复杂PDF文档时。这通常不是ChromaDB本身的问题，而是文档处理、检索策略或问答链配置不当导致的。本文将详细介绍如何通过优化文档分块、调整检索器参数以及理解问答链机制来…

程序猿
2025年12月14日
0000
用户投稿

Copilot如何高效调用大型语言模型并避免资源浪费？

Copilot：高效利用大型语言模型的秘诀 Copilot强大的代码补全和智能提示功能，得益于其对大型语言模型（如Claude、Gemini和GPT）的巧妙调用。本文将揭秘Copilot如何高效地与这些模型交互，避免资源过度消耗。精细化的提示词策略 Copilot并非简单地将所有信息一股脑地塞给模…

程序猿
2025年12月13日
0000
用户投稿

python中的LLM函数逐步指南

本指南将指导您如何使用 Python 和 Claude 实现函数调用，并提供示例和最佳实践。通过函数调用，Claude 可以以结构化的方式与外部函数和工具交互。先决条件开始之前，您需要： Python 3.7 或更高版本anthropic Python 包Anthropic 提供的有效 API …

程序猿
2025年12月13日
1000
用户投稿

将待办事项列表设置为Windows壁纸（由SONNET编码）

amoy-todo-wallpaper >将待办事项列表设置为windows壁纸。这是一个由claude-sonnet-3.5编码的python程序，并进行了较小的修订。 github：https://github.com/casualwriter/amoy-todo-wallpaper 如…

程序猿
2025年12月13日
1000
开源LLMS应该得到代码，而不是提示！（DSPY，瞧！）

DSPY：将提示工程转变为提示编程的革命性框架大型语言模型 (llm) 时代，新模型层出不穷。然而，充分发挥 llm 的潜力往往依赖于繁琐易错的提示工程。dspy 应运而生，它是一个开源框架，彻底改变了我们与 llm 交互的方式。dspy 将提示视为可训练、模块化的组件，而非静态文本，并通过编程方…

程序猿
2025年12月13日 • 用户投稿
0000
用户投稿

使用 Anthropic 的 Claude Sonnet 生成报告

Pilar，一家巴西房地产科技公司，联合创始人兼首席技术官Raphael分享了利用Anthropic Claude 3.5 Sonnet生成报告的经验，并比较了两种不同方法的优劣。Pilar为房地产经纪商提供基于低成功费模式的软件和服务，其20人的技术团队不断开发创新产品，例如全新的房地产门户网站P…

程序猿
2025年12月13日
0000
用户投稿

使用 AWS Bedrock 部署 AI 交通拥堵预测器：完整概述

本文将指导您如何使用 AWS Bedrock 部署一个 AI 交通拥堵预测器，实现实时交通状况预测。AWS Bedrock 提供全托管的基础模型服务，非常适合 AI 应用部署。我们将涵盖从环境准备到最终测试的完整流程。先决条件: 一个具有相应权限的 AWS 账户 (建议使用免费套餐)。Python…

程序猿
2025年12月13日
0000
用户投稿

AISuite：简化跨多个 LLM 提供商的 GenAI 集成

生成式人工智能 (gen ai) 正在凭借其创造力、解决问题和自动化的潜力重塑行业。然而，由于 api 和配置分散，开发人员在集成来自不同提供商的大型语言模型 (llm) 时经常面临重大挑战。互操作性的缺乏使工作流程变得复杂，延长了开发时间，并阻碍了有效的 gen ai 应用程序的创建。为了解决这…

程序猿
2025年12月13日
0000
使用 Amazon Bedrock Converse API 节省时间！

通过 bedrock，您可以访问一系列不同的大型语言模型（例如 claude、mistral、llama 和 amazon titan），并且随时都有新版本可用。有选择固然很棒，但必须为每个模型编写不同的请求代码却很痛苦。这就是为什么在比较不同基础模型的输出时，amazon bedrock co…

程序猿
2025年12月13日 • 用户投稿
0000
自由职业者神器 PHP加ChatGPT自动回复客户邮件

答案：PHP结合ChatGPT可实现客户邮件自动回复，提升自由职业者效率。通过IMAP收取邮件，调用OpenAI API生成专业回复，再通过SMTP自动发送，核心在于合理设计Prompt以提升回复质量，并配合定时任务执行。需注意垃圾邮件、信息泄露、上下文理解偏差、API安全与调用成本等风险。建议结合…

程序猿
2025年12月11日 • 用户投稿
1000
代码气味 – 未解析的元标签

不完整的元标签是不专业的 tl;dr：不完整或空元标记会破坏功能和用户体验。问题标签出现在输出中电子邮件文本包含人类可读文本之间的占位符丢失的占位符会让用户感到困惑网站呈现奇怪的字符空值会触发错误潜在的安全注入漏洞解决方案验证元标记尽早断言完整性快速失败避免空值抛出有意义的异常自动元验证语…

程序猿
2025年12月11日 • 用户投稿
0000
用户投稿

构建了一个将面试准备过程变成博客文章的功能

我开发了一个工具，利用Claude 3生成PHP面试准备资源，并将其自动转换为博客文章。此工具涵盖了面试中可能遇到的问题、答案和提示，帮助求职者更好地准备面试。该工具的输出示例可见于：https://www.php.cn/link/4d1d732a3fd7efdacb4b26a0ca945eba …

程序猿
2025年12月10日
0000
Claude拿下冠军,6大AI网格策略对决真相如何?OKX&AiCoin实盘测评

nof1 推出的「ai 炒币实盘竞技场」第一赛季，终于在 2025 年 11 月 4 日早上 6 点收官，吊足了币圈、科技圈和金融圈的胃口。 Binance币安欧易OKX ️ Huobi火币️ 但这场“AI 智商公开测试”的结局却有点出乎意料，六个模型总计的 6 万美元本金，收官时只剩 4.3 万…

程序猿
2025年12月9日 • 用户投稿
1000

发表回复

登录后才能评论

商汤商量获SuperCLUE9月评测总榜子榜双第一，AI智能体方向受瞩目

关于作者

相关推荐

发表回复