OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

大模型天花板gpt-4和最强竞品claude,不光商业上竞争激烈,两家公司的员工私下也“剑拔弩张”了起来:

约战提示词决斗,看谁能在最短时间让AI完成高难度任务。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

OpenAI一方出战的是思维链(Chain-of-Thought)开山论文的一作Jason Wei,也就发现让大模型按步骤思考就能提高推理能力的人。

他刚从谷歌跳槽到OpenAI不久,现在圈里都叫他“思维链哥”。

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

Anthropic一方的选手Karina Nguyen也不简单,毕业于UC伯克利,现在负责设计构建大模型人机交互界面。

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

比赛规则很简单,通过优化提示词让AI正确排序一组单词,谁先完成谁获胜。

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

而这不光是一场有趣的对决,还有不少围观的网友表示从中get到了大模型的一些新特性。

情商能提高大模型的推理能力

推理能力足够强的大模型能把问题用结构化的方式表达出来,并用结构化的表现形式解决问题。

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

想知道这些结论是如何得出的,还是回到这场比赛本身。

提示词大师巅峰对决

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

由于Karina表示只擅长提示Claude,Jason也同意让出主场优势,还因为打字速度的原因让对面3分钟。

总之经过一番讨价还价后,比赛正式开始了!

首先要了解的是,这项任务看起来不难,但无论GPT-4还是Claude都不能通过简单提示词直接完成。

(anaconda应该排在anchor前面)

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

Jason首先尝试让Claude编写一些代码并执行,让它进入编码模式。

然鹅,失败了。(还是anaconda的位置不对)

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

1分钟后Karina说她完成了,Jason直接瞳孔地震。

Karina:既然是你让了我3分钟,那我也给你3分钟让你赶上。

Jason:其实现在我很恐慌,我作为“提示小王子”的声誉岌岌可危。

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

一分钟后……Jason Wei想出了第二个策略:

既然首字母都是A就无关紧要了,那么让AI先把每个单词的首字母去掉,对剩下部分排序后再放回去。

商汤商量 商汤商量

商汤科技研发的AI对话工具,商量商量,都能解决。

商汤商量 36 查看详情 商汤商量

完整思维链提示词如下:

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

不幸的是这仍然不起作用,时间也到了,Jason只能认输。

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

比赛结束后,Karina也展示了她的提示词,完全不需要什么中间推理步骤,只是先想办法让AI承认能理解这个任务,再执行就好了。

人类:你的任务是把列表按字母顺序排列后输出到里……你明白了吗?

AI:明白了

人类:列表如下……

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

Jason很困惑,这居然行得通?并尝试在自家大模型上找回场子。

结果发现他的方法对GPT-4确实有效,GPT-4可以编写正确的Python代码并给出正确结果。

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

One More Thing

虽然输了比赛,但Jason作为科学家还是从中分析出一些结论。

Jason Wei表示,这场战斗非常有启示性。

Karina的提示策略是让AI承认自己理解任务要求(情商)。而自己的策略是让模型更多地进行推理(智商)。

双方使用的策略在各自习惯使用的语言模型上都取得了成功。

所以,究竟是我们在训练语言模型,还是语言模型在训练我们?

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

最后,还有网友又出了一个新题目:

如果你能让它创作一首“philish 诗歌”(每个词的长度与圆周率的后续数字相对应),我愿为你加冕称王

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

(我已经尝试了几个月了)。

OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力

你觉得解决这个问题要靠AI的情商还是智商?不如也来亲自试试。

参考链接:[1]https://twitter.com/_jasonwei/status/1661781745015066624

以上就是OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/533914.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 11:55:54
下一篇 2025年11月9日 12:01:40

相关推荐

  • 人工智能工具市场

    AIprophetic.com 网站文章列表: 2025年: 2025-01-24: 人工智能工具市场概览 (https://www.php.cn/link/1c52486ff0b2a44fbfefeb15d21f53ae)2025-01-24: ChatGPT 故障排除及替代方案 (https:/…

    2025年12月19日
    000
  • 代码异味 – 非命令式函数名称

    清晰的函数命名:避免歧义,提升代码可读性 简而言之:含糊不清的函数名会隐藏其功能,令读者困惑。请使用具有描述性、面向动作的名称。 问题 函数用途不明确认知负担增加上下文误导可读性降低协作困难功能隐藏 解决方案 使用面向动作的动词使用描述性名称反映函数目的避免通用术语提供有意义的上下文明确表达单一职责…

    2025年12月19日 好文分享
    000
  • 克劳德·十四行诗 vs GPT-4o

    本案例研究对claude 3.5 sonnet和gpt-4o两种人工智能模型进行了深入比较,涵盖性能、定价和具体应用场景,并结合社区反馈、基准测试和实际使用经验。 Claude 3.5 Sonnet:智能且人性化 Claude 3.5 Sonnet是什么? Claude 3.5 Sonnet是Ant…

    2025年12月19日 好文分享
    000
  • 轨道:太阳系之旅

    去年十月,Masons团队参与了2024年NASA Space Apps Cairo黑客马拉松,并开发了一个令人振奋的项目——Orbit。Orbit是一个交互式3D网页应用,能够模拟太阳系并追踪近地天体(NEO)。它基于Next.js、Three.js和Golang后端构建,旨在提供宇宙的实时信息,…

    2025年12月19日
    000
  • 自写 Lang 图状态

    第一人工智能响应: 输出:感谢您伸出援手,.我很乐意为您提供帮助,但我想确保我完全理解您的需求。您能否提供有关您正在寻找的内容的更多详细信息?您分享的信息越多,我就越能提供帮助!我很乐意尽我所能地帮助你。您想进一步探索某个特定领域吗?您的意见将帮助我根据您的具体需求定制我的帮助。我完全致力于让您的体…

    2025年12月19日
    000
  • lambda演算的数学

    你认为人类发现了还是发明了计算? 我倾向于发现,因为图灵机和丘奇的 Lambda 微积分在 1936 年彼此独立地形式化,但两者也都具有普遍的表达能力(允许你计算一切)。非常不同,但 100% 等效。 我不是在谈论硬件计算机的发明,由于电子电路及其晶体管,它可以采取各种形式并普遍实现这些概念。我在这…

    2025年12月19日
    100
  • 基于Schema文件实现无数据库连接的SQL语句生成

    本文探讨了在不直接连接数据库的情况下,如何利用数据库schema文件生成sql语句的方法。我们将重点介绍通过提供详细的数据库概览信息给大型语言模型(llm),实现基于schema的sql查询生成,从而避免实际数据库连接,提升安全性和灵活性。内容涵盖了如何准备schema信息以及其在llm驱动的sql…

    2025年12月14日
    000
  • 如何优化ChromaDB检索响应的完整性

    在使用Langchain结合ChromaDB构建基于文档的问答系统时,用户有时会遇到检索到的响应不完整的情况,尤其是在处理大型或复杂PDF文档时。这通常不是ChromaDB本身的问题,而是文档处理、检索策略或问答链配置不当导致的。本文将详细介绍如何通过优化文档分块、调整检索器参数以及理解问答链机制来…

    2025年12月14日
    000
  • Copilot如何高效调用大型语言模型并避免资源浪费?

    Copilot:高效利用大型语言模型的秘诀 Copilot强大的代码补全和智能提示功能,得益于其对大型语言模型(如Claude、Gemini和GPT)的巧妙调用。本文将揭秘Copilot如何高效地与这些模型交互,避免资源过度消耗。 精细化的提示词策略 Copilot并非简单地将所有信息一股脑地塞给模…

    2025年12月13日
    000
  • python中的LLM函数逐步指南

    本指南将指导您如何使用 Python 和 Claude 实现函数调用,并提供示例和最佳实践。通过函数调用,Claude 可以以结构化的方式与外部函数和工具交互。 先决条件 开始之前,您需要: Python 3.7 或更高版本anthropic Python 包Anthropic 提供的有效 API …

    2025年12月13日
    100
  • 将待办事项列表设置为Windows壁纸(由SONNET编码)

    amoy-todo-wallpaper >将待办事项列表设置为windows壁纸。 这是一个由claude-sonnet-3.5编码的python程序,并进行了较小的修订。 github:https://github.com/casualwriter/amoy-todo-wallpaper 如…

    2025年12月13日
    100
  • 开源LLMS应该得到代码,而不是提示! (DSPY,瞧!)

    DSPY:将提示工程转变为提示编程的革命性框架 大型语言模型 (llm) 时代,新模型层出不穷。然而,充分发挥 llm 的潜力往往依赖于繁琐易错的提示工程。dspy 应运而生,它是一个开源框架,彻底改变了我们与 llm 交互的方式。dspy 将提示视为可训练、模块化的组件,而非静态文本,并通过编程方…

    2025年12月13日 好文分享
    000
  • 使用 Anthropic 的 Claude Sonnet 生成报告

    Pilar,一家巴西房地产科技公司,联合创始人兼首席技术官Raphael分享了利用Anthropic Claude 3.5 Sonnet生成报告的经验,并比较了两种不同方法的优劣。Pilar为房地产经纪商提供基于低成功费模式的软件和服务,其20人的技术团队不断开发创新产品,例如全新的房地产门户网站P…

    2025年12月13日
    000
  • 使用 AWS Bedrock 部署 AI 交通拥堵预测器:完整概述

    本文将指导您如何使用 AWS Bedrock 部署一个 AI 交通拥堵预测器,实现实时交通状况预测。AWS Bedrock 提供全托管的基础模型服务,非常适合 AI 应用部署。我们将涵盖从环境准备到最终测试的完整流程。 先决条件: 一个具有相应权限的 AWS 账户 (建议使用免费套餐)。Python…

    2025年12月13日
    000
  • AISuite:简化跨多个 LLM 提供商的 GenAI 集成

    生成式人工智能 (gen ai) 正在凭借其创造力、解决问题和自动化的潜力重塑行业。然而,由于 api 和配置分散,开发人员在集成来自不同提供商的大型语言模型 (llm) 时经常面临重大挑战。互操作性的缺乏使工作流程变得复杂,延长了开发时间,并阻碍了有效的 gen ai 应用程序的创建。 为了解决这…

    2025年12月13日
    000
  • 使用 Amazon Bedrock Converse API 节省时间!

    通过 bedrock,您可以访问一系列不同的大型语言模型(例如 claude、mistral、llama 和 amazon titan),并且随时都有新版本可用。 有选择固然很棒,但必须为每个模型编写不同的请求代码却很痛苦。 这就是为什么在比较不同基础模型的输出时,amazon bedrock co…

    2025年12月13日 好文分享
    000
  • 自由职业者神器 PHP加ChatGPT自动回复客户邮件

    答案:PHP结合ChatGPT可实现客户邮件自动回复,提升自由职业者效率。通过IMAP收取邮件,调用OpenAI API生成专业回复,再通过SMTP自动发送,核心在于合理设计Prompt以提升回复质量,并配合定时任务执行。需注意垃圾邮件、信息泄露、上下文理解偏差、API安全与调用成本等风险。建议结合…

    2025年12月11日 好文分享
    100
  • 代码气味 – 未解析的元标签

    不完整的元标签是不专业的 tl;dr:不完整或空元标记会破坏功能和用户体验。 问题 标签出现在输出中电子邮件文本包含人类可读文本之间的占位符丢失的占位符会让用户感到困惑网站呈现奇怪的字符空值会触发错误潜在的安全注入漏洞 解决方案 验证元标记尽早断言完整性快速失败避免空值抛出有意义的异常自动元验证 语…

    2025年12月11日 好文分享
    000
  • 构建了一个将面试准备过程变成博客文章的功能

    我开发了一个工具,利用Claude 3生成PHP面试准备资源,并将其自动转换为博客文章。此工具涵盖了面试中可能遇到的问题、答案和提示,帮助求职者更好地准备面试。 该工具的输出示例可见于:https://www.php.cn/link/4d1d732a3fd7efdacb4b26a0ca945eba …

    2025年12月10日
    000
  • Claude拿下冠军,6大AI网格策略对决真相如何?OKX&AiCoin实盘测评

    nof1 推出的「ai 炒币实盘竞技场」第一赛季,终于在 2025 年 11 月 4 日早上 6 点收官,吊足了币圈、科技圈和金融圈的胃口。 Binance币安 欧易OKX ️ Huobi火币️ 但这场“AI 智商公开测试”的结局却有点出乎意料,六个模型总计的 6 万美元本金,收官时只剩 4.3 万…

    2025年12月9日 好文分享
    100

发表回复

登录后才能评论
关注微信