马斯克旗下的 ai 公司 xai 正式发布 grok 4.1,宣称该模型在对话智能、情感理解与实际应用能力方面实现了全新突破,重新定义了行业标杆。目前,grok 4.1 已登陆 grok.com 以及 ios 和 android 应用平台,用户可通过模型选择器手动切换至 “grok 4.1” 模式使用。

据官方介绍,Grok 4.1 在创造力、情感交互能力与协作性能上均有显著增强,同时延续了此前版本所具备的高智商与稳定性。为达成这些进步,xAI 在 Grok 4 大规模强化学习的基础上,进一步优化了模型的“风格表达、人格化特征、辅助性功能及对齐机制”。此次升级特别引入了一种创新方法:采用“先进的代理式(agentic)推理模型”作为奖励模型,使其能够自主评估响应质量,并实现大规模迭代优化。
Grok 4.1 技术亮点与基准测试表现
在 LMArena 的 “Text Leaderboard” 测试中,Grok 4.1 的“思考模式”(代号 quasarflux)取得了 1483 Elo 分的成绩,领先于所有非 xAI 开发的模型;其“非推理模式”(代号 tensor,即无思考 tokens 的即时回复模式)也达到 1465 Elo,超越其他模型在完整推理配置下的表现。在情感智能测评(EQ-Bench3)中,Grok 4.1 展现出更强的共情能力、心理洞察力和人际互动水平。创意写作评测(Creative Writing v3 benchmark)结果显示,新模型的语言更具角色个性,情感表达更丰富,叙事张力明显提升。在降低“幻觉”现象(即对事实问题给出错误回答)方面亦取得进展。特别是在“非推理模式”下结合搜索工具时,幻觉率显著下降。这一改进通过 FActScore(生物传记类问题基准)得到了验证。


零一万物开放平台
零一万物大模型开放平台
36 查看详情

了解更多:https://www.php.cn/link/8f94f061698ba1df2c83661cd4ab9000
源码下载地址:点击获取
以上就是xAI 发布最新模型 Grok 4.1:更少幻觉、更准事实、更强风格控制的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/866116.html
微信扫一扫
支付宝扫一扫