微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

微软最新研究再次证明了提示工程的威力——

无需额外微调,无需专家策划,仅凭提示,GPT-4就能化身“专家”。

使用他们提出的最新提示策略Medprompt,在医疗专业领域,GPT-4在MultiMed QA九个测试集中取得最优结果。

在MedQA数据集(美国医师执照考试题)上,Medprompt让GPT-4的准确率首次超过90%超越BioGPT和Med-PaLM等一众微调方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

研究人员还表示Medprompt方法是通用的,不仅适用于医学,还可以推广到电气工程、机器学习、法律等专业中。

这项研究在X(原Twitter)一经分享,就引发众多网友关注。

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

沃顿商学院教授Ethan Mollick、Artificial Intuition作者Carlos E. Perez等都有转发分享。

Carlos E. Perez直呼“出色的提示策略可以甩微调一大截”:

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

有一些网友表示早就有这种预感,现在能看到结果出来,真的是太酷了!

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

有些网友认为这真的很“激进”

GPT-4是一项能改变行业的技术,而我们还远没有触及提示的极限,也未达到微调极限。

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

组合提示策略,“变身”专家

Medprompt是多种提示策略的组合体,包含三大法宝:

动态少样本选择(Dynamic few-shot selection)自生成思维链(Self-generated chain of thought)选项洗牌集成(Choice shuffling ensemble)

接下来,我们将逐一进行介绍

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

动态少样本选择

少样本学习是让模型快速学习上下文的一种有效的方法。简单来说,就是输入一些示例,让模型快速适应特定领域,并学习遵循任务的格式。

这种用于特定任务提示的少样本示例通常是固定的,所以对示例的代表性和广泛性有较高的要求。

之前一种方法是让领域专家手动制作范例,但即便如此,也不能保证专家策划的固定的少样本示例在每个任务中都有代表性。

微软研究人员提出了一种动态少样本示例的方法,因此

想法是,任务训练集可以作为少样本示例的来源,如果训练集足够大,那就可以为不同的任务输入选择不同的少样本示例。

在具体操作上,研究人员首先使用text-embedding-ada-002模型为每个训练样本和测试样本生成向量表示。然后,针对每个测试样本,通过比较向量的相似度,从训练样本中选择出与之最相似的k个样本

与微调方法相比,动态少样本选择利用了训练数据,但不需要对模型参数进行大量更新。

自生成思维链

思维链(CoT)方法是一种让模型逐步思考并生成一系列中间推理步骤的方法

以前的方法是依靠专家手动编写一些带有提示思维链的示例

小微助手 小微助手

微信推出的一款专注于提升桌面效率的助手型AI工具

小微助手 47 查看详情 小微助手

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

在这里,研究人员发现,可以简单地要求GPT-4使用以下提示为训练示例生成思维链:

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

但研究人员也指出这种自动生成的思维链可能包含错误的推理步骤,于是设置了一个验证标签作为过滤器,可以有效减少错误。

与在Med-PaLM 2模型中专家手工制作的思维链示例相比,GPT-4生成的思维链基本原理更长,而且分步推理逻辑更细粒度。

选项洗牌集成

GPT-4在处理选择题时可能存在一种偏见,即无论选项的内容是什么,它倾向于总是选择A或总是选择B,这就是位置偏差

为了解决这个问题,研究人员决定对原有的选项进行顺序重排,以减少影响。例如,原本的选项顺序为ABCD,可以改为BCDA、CDAB等

然后让GPT-4做多轮预测,每轮使用选项的一个不同排列顺序。如此一来“迫使”GPT-4考虑选项的内容。

最后对多轮预测结果做个投票,选择最一致、正确的选项。

将以上几种提示策略组合在一起就是Medprompt,下面来看测试结果。

多项测试最优

在测试中,研究人员采用了MultiMed QA评估基准。

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

使用Medprompt提示策略的GPT-4,在MultiMedQA的九个基准数据集中均取得最高分,优于Flan-PaLM 540B、Med-PaLM 2。

此外,研究人员还讨论了Medprompt策略在“Eyes-Off”数据上的表现。所谓“Eyes-Off”数据,指的是模型在训练或优化过程中未曾见过的数据,用于检验模型是否过拟合训练数据

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

结果GPT-4结合Medprompt策略在多个医学基准数据集上表现出色,平均准确率达到了91.3%。

研究人员对MedQA数据集进行了消融实验,以探索三个组件对整体性能的相对贡献

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

在其中,自动生成思维链步骤对于性能的提升起着最大的作用

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

GPT-4自动生成的思维链得分比Med-PaLM 2中专家策划的得分更高,并且不需要人工干预

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

最后,研究人员还探索了Medprompt的跨域泛化能力,取用了MMLU基准中的六个不同的数据集,涵盖了电气工程、机器学习、哲学、专业会计、专业法律和专业心理学的问题。

还添加了另外两个包含NCLEX(美国护士执照考试)问题的数据集。

结果显示,Medprompt在这些数据集上的效果与在MultiMedQA医学数据集上的提升幅度相近,平均准确率提高了7.3%。

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%

请点击以下链接查看论文:https://arxiv.org/pdf/2311.16452.pdf

以上就是微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/453100.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 00:13:07
下一篇 2025年11月8日 00:14:30

相关推荐

  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • AI 越聪明越不听话!新研究:最强推理模型指令遵循率仅 50%

    如果面前有两个 ai 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

    2025年12月3日 硬件教程
    100
  • SQLServer数据源驱动怎么选_SQLServer数据源驱动程序选择

    答案:选择SQL Server数据源驱动应根据应用语言和需求确定。Java应用首选Microsoft JDBC Driver,.NET应用推荐Microsoft.Data.SqlClient,二者在性能、功能支持和新特性集成上优于通用ODBC驱动;虽ODBC适用于跨平台或遗留系统,但原生驱动因更优的…

    2025年12月3日 数据库
    000
  • 持续80天超100万人在线!魔兽回归后在线数据创10年最佳

    自《魔兽世界》回归以来,这款风靡全球的经典多人在线角色扮演游戏再次在国内掀起了热潮。 在20周年玩家交流会上,官方宣布《魔兽世界》国服最高同时在线的玩家数同时在线人数持续80天超过了100万人。 如果以 Steam的公开数据为标准,仅《魔兽世界》国服的在线人数,就能登上全球第一。20岁的《魔兽世界》…

    2025年12月2日 行业动态
    000
  • 讲述mysql数据表几种有效优化方法

    下面我们要四种关于mysql数据表几种有效优化方法哦,从而提高mysql数据库在应用方面的数据吞吐能力。

    数据库 2025年12月2日
    000
  • 《梦幻西游》全新赛事祥瑞即将来袭,剪影图曝光

    《梦幻西游》电脑版全新赛事祥瑞曝光,11月将会和广大玩家正式亮相!你们猜猜这只祥瑞是以什么为原型做的设计,以及和梦幻接下来的什么活动有关 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻…

    2025年12月2日 行业动态
    000
  • mysql查询多少秒内的数据显示

    mysql查询多少秒内的数据显示

    数据库 2025年12月2日
    000
  • excel数据导入mysql数据库二种方法

    下面我们要讲二种excel数据导入mysql数据库方法了,这二种方法比较简单,也是很方便的,以前我把excel数据导入到mysql数据库都是用php程序来实例,现在我们不需要程序,用现有的工具就行了。

    数据库 2025年12月2日
    000
  • 《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!

    《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队! 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!的详细内容,更多请关注…

    2025年12月2日
    000
  • 精妙的SQL和SQL SERVER 与ACCESS、EXCEL的数据导入导出转换

    sqlserver 与access,excel互相导入导出代码 * 说明:复制表(只复制结构,源表名:a 新表名:b) select * into b from a where 11 * 说明:拷贝表(拷贝数据,源表名:a 目标表名:b) insert into b(a, b, c) select …

    数据库 2025年12月2日
    000
  • Oracle中的INTERVAL数据类型详解

    NTERVAL YEAR TO MONTH数据类型 Oracle语法: INTERVAL integer [- integer] {YEAR | MONTH} [(precision)][TO {YEAR | MONTH}] 该数据类型常用来表示一段时间差, 注意时间差只精确到年和月. precis…

    数据库 2025年12月2日
    000
  • Oracle数据分摊问题解析

    经常会碰到,由于业务需要,需要将某种汇总的数据按照一定的原则分摊给一堆数据。 其实,如果逻辑清晰的话,这类型的程序还是比较好些的。 本文重点是如果用简单的程序实现这种效果,而且不容易分摊分错。 所有的分摊问题,首先必须要搞清楚以下几点问题: 1 经常会碰到,由于业务需要,需要将某种汇总的数据按照一定…

    数据库 2025年12月2日
    000
  • MySQL怎么去除重复数据?

    这篇文章主要介绍了%ign%ignore_a_1%re_a_1% 去除重复数据实例详解的相关资料,需要的朋友可以参考下 MySQL 去除重复数据实例详解 有两个意义上的重复记录,一是完全重复的记录,也即所有字段均都重复,二是部分字段重复的记录。对于第一种重复,比较容易解决,只需在查询语句中使用dis…

    2025年12月2日
    000
  • Mysql删除重复的数据的方法

    这篇文章主要介绍了mysql删除重复的数据 mysql数据去重复,需要的朋友可以参考下 MySQL数据库中查询重复数据 select * from employee group by emp_name having count (*)>1; Mysql  查询可以删除的重复数据 启科网络PHP…

    2025年12月2日
    000
  • Go语言中正确地向切片追加元素:理解变量作用域与短声明

    本文深入探讨了Go语言中向切片追加元素时常见的陷阱——变量作用域与短声明(:=)的误用。通过分析一个具体的SQL查询结果切片构建案例,我们解释了为何在循环内部使用 := 会导致变量遮蔽和数据丢失,并提供了使用赋值操作符 = 进行正确追加的解决方案,帮助开发者避免此类编译错误和逻辑问题。 在go语言开…

    2025年12月2日 后端开发
    000
  • mysql能存储多少条数据

    %ignore_a_1%是中小型网站普遍使用的数据库之一,可是有很多人都并不清楚mysql到底能支持多大的数据量。下面我将带大家了解一下。 其实MySQL单表的上限,主要与操作系统支持的最大文件大小有关。 官方的介绍: MySQL 3.22 限制的表大小为4GB。由于在MySQL 3.23 中使用了…

    2025年12月2日 数据库
    000
  • 在表中设置外键实现的是哪一类数据完整性

    在表中设置外键实现的是参照完整性。 参照的完整性要求关系中不允许引用不存在的实体。与实体完整性是关系模型必须满足的完整性约束条件,目的是保证数据的一致性。参照完整性又称引用完整性。(推荐学习:MySQL视频教程) 参照完整性是关系模型的完整约束之一,属于数据完整性的一种,其余还有:实体完整性、用户自…

    2025年12月2日 数据库
    000
  • 探究词表选择对语言模型训练的影响:一项具有突破性的研究

    语言模型受不同词表的影响有哪些?如何平衡这些影响? 在最近的一项实验中,研究者对16个语言模型进行了不同的语料预训练和微调。这次实验使用了NanoGPT,一种小规模的架构(基于GPT-2 SMALL),共训练了12个模型。NanoGPT的网络架构配置为:12个注意力头、12层transformer,…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信