手机运行微软小模型胜过27亿参数的大模型

微软 CEO 纳德拉在 Ignite 大会上宣布,上个月,Phi-2 小尺寸模型将完全开源。这一举措将显著改进常识推理、语言理解和逻辑推理的性能

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

手机运行微软小模型胜过27亿参数的大模型

今天,微软公布了 Phi-2 模型的更多细节以及全新的提示技术 promptbase。这个仅 27 亿参数的模型在大多数常识推理、语言理解、数学和编码任务上超越了 Llama2 7B、Llama2 13B、Mistral 7B,与 Llama2 70B 的差距也在缩小(甚至更好)。

同时,小尺寸的 Phi-2 可以在笔记本电脑、手机等移动设备上运行。纳德拉表示,微软非常高兴将一流的小语言模型(SLM)和 SOTA 提示技术向研发人员分享。

手机运行微软小模型胜过27亿参数的大模型

微软在今年六月发表了一篇名为《只需教科书》的论文,使用了仅包含7B个标记的“教科书质量”数据来训练了一个包含1.3B个参数的模型,即phi-1。尽管数据集和模型规模比竞争对手小几个数量级,但是phi-1在HumanEval中的一次通过率达到了50.6%,在MBPP中的准确率达到了55.5%。phi-1证明了即使是高质量的“小数据”也能够使模型具备良好的性能

微软随后在九月份发表了《只需教科书II:Phi-1.5技术报告》,对高质量的“小数据”潜力进行了进一步的研究。文中提出了Phi-1.5,该参数适用于QA问答、代码等场景,可达到13亿的规模

如今 27 亿参数的 Phi-2,再次用「小身板」给出了卓越的推理和语言理解能力,展示了 130 亿参数以下基础语言模型中的 SOTA 性能。得益于在模型缩放和训练数据管理方面的创新, Phi-2 在复杂的基准测试中媲美甚至超越了 25 倍于自身尺寸的模型。

微软表示,Phi-2 将成为研究人员的理想模型,可以进行可解释性探索、安全性改进或各种任务的微调实验。微软已经在 Azure AI Studio 模型目录中提供了 Phi-2,以促进语言模型的研发。

Phi-2 关键亮点

语言模型规模增加到千亿参数,的确释放了很多新能力,并重新定义了自然语言处理的格局。但仍存在一个问题:是否可以通过训练策略选择(比如数据选择)在较小规模的模型上同样实现这些新能力?

微软提供的解决方案是使用Phi系列模型,通过训练小型语言模型来实现与大型模型类似的性能。Phi-2在两个方面打破了传统语言模型的缩放规则

首先,训练数据的质量在模型性能中起着至关重要的作用。微软通过专注于「教科书质量」的数据,将这一认知发挥到了极致。他们的训练数据包含了专门创建的综合数据集,教给模型常识性知识和推理,例如科学、日常活动和心理等。此外,他们还通过精心挑选的网络数据来进一步扩充自己的训练语料库,这些网络数据经过教育价值和内容质量的筛选

其次,微软使用创新技术进行扩展,从 13 亿参数的 Phi-1.5 开始,将知识逐渐嵌入到了 27 亿参数的 Phi-2 中。这种规模化知识迁移加速了训练收敛,并显著提升了 Phi-2 的基准测试分数。

以下是Phi-2和Phi-1.5之间的比较图,除了BBH(3-shot CoT)和MMLU(5-shot)之外,所有其他任务都是使用0-shot进行评估

手机运行微软小模型胜过27亿参数的大模型

训练细节

Phi-2 是一个基于 Transformer 的模型,其目标是预测下一个词。它在合成数据集和网络数据集上进行了训练,使用了 96 块 A100 GPU,并花费了 14 天的时间

Phi-2 是一个基础模型,没有通过人类反馈强化学习 (RLHF) 进行对齐,也没有进行指令微调。尽管如此,与经过调整的现有开源模型相比,Phi-2 在毒性和偏见方面仍然表现得更好,如下图 3 所示。

手机运行微软小模型胜过27亿参数的大模型

实验评估

首先,该研究在学术基准上对 Phi-2 与常见语言模型进行了实验比较,涵盖多个类别,包括:

Big Bench Hard (BBH) (3 shot with CoT)常识推理(PIQA、WinoGrande、ARC easy and challenge、SIQA)、语言理解(HellaSwag、OpenBookQA、MMLU(5-shot)、SQuADv2(2-shot)、BoolQ)数学(GSM8k(8 shot))编码(HumanEval、MBPP(3-shot))

Phi-2模型仅有27亿个参数,却在各种聚合基准上性能超越了7B和13B的Mistral模型和Llama2模型。值得一提的是,与庞大的25倍Llama2-70B模型相比,Phi-2在多步骤推理任务(即编码和数学)方面表现更出色

此外,尽管尺寸较小,但 Phi-2 的性能可以媲美最近由谷歌发布的 Gemini Nano 2

由于许多公共基准可能会泄漏到训练数据中,研究团队认为测试语言模型性能的最佳方法是在具体用例上对其进行测试。因此,该研究使用多个微软内部专有数据集和任务对 Phi-2 进行了评估,并再次将其与 Mistral 和 Llama-2 进行比较,平均而言,Phi-2 优于 Mistral-7B,Mistral-7B 优于 Llama2 模型(7B、13B、70B)。

手机运行微软小模型胜过27亿参数的大模型

手机运行微软小模型胜过27亿参数的大模型

研究团队还对常见的研究社区提示进行了广泛测试。Phi-2的表现与预期相符。例如,对于一个用于评估模型解决物理问题能力的提示(最近用于评估Gemini Ultra模型),Phi-2给出了以下结果:

手机运行微软小模型胜过27亿参数的大模型

手机运行微软小模型胜过27亿参数的大模型

以上就是手机运行微软小模型胜过27亿参数的大模型的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/806298.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月26日 20:19:04
下一篇 2025年11月26日 20:24:53

相关推荐

  • 关于html嵌入xml数据岛如何穿过树形结构关系

    html里面引用xml的数据岛,如何穿过树形结构的关系,我不知道这个datafld里面应该如何使用xml里面的标签名称,如何加前缀,如何从resume得到name子元素 如下面的代码细节,html里面引用xml的数据岛,如何穿过树形结构的关系? 我不知道这个datafld里面应该如何使用xml里面的…

    好文分享 2025年12月17日
    000
  • Go语言中关系型数据库(RDBMS)的集成与性能优化实践

    本文深入探讨了Go语言与关系型数据库(RDBMS)的集成策略与性能优化实践。重点介绍了Go标准库`database/sql`作为核心接口的使用,并评估了如`sqlx`和`gorp`等辅助库及ORM的定位。文章强调了通过抽象层实现数据访问解耦的重要性,并提供了选择SQL驱动、运用预处理语句及其他性能优…

    2025年12月16日
    000
  • 基于内存消耗的自动缓存淘汰机制实现教程

    本文深入探讨了如何在go语言中实现基于系统内存消耗的lru缓存自动淘汰机制。文章详细介绍了通过周期性轮询操作系统内存统计信息(如linux上的`syscall.sysinfo`和macos上的`mach`接口)来获取实时的内存使用情况。通过示例代码展示了跨平台获取内存数据的具体实现,并讨论了将这些数…

    2025年12月16日
    000
  • 如何高效地在Go中使用http.ResponseWriter构建JSONP响应

    本教程探讨在go语言中高效构建jsonp响应的方法,重点解决如何使用`http.responsewriter`处理回调函数封装。文章通过对比传统字符串拼接与字节切片转换的不足,详细介绍了利用`fmt.fprintf`直接写入和`fmt.sprintf`预格式化两种优化方案,旨在提升代码的简洁性和执行…

    2025年12月16日
    000
  • Golang开发文件上传下载系统项目

    答案:Golang文件上传下载系统需高效处理I/O、保障安全并优化体验,核心包括选用本地、对象存储或分布式系统作为存储方案;设计支持上传、下载、删除和列表功能的API接口;通过multipart/form-data实现文件上传,结合io.Copy进行流式处理,生成唯一文件名并记录元数据;下载时设置正…

    2025年12月15日
    000
  • 设计Go语言中的基础对象关系映射(ORM):原理与实践

    本教程探讨了在Go中设计基础ORM的策略,分析了一种将整个数据库加载到内存并使用CRC32检测变更的常见但存在缺陷的方法。文章将深入剖析这种方法的潜在问题,如数据一致性、可伸缩性挑战,并引导读者转向更符合Go语言习惯且高效的按需数据映射和持久化策略,通过示例代码展示如何构建一个健壮的ORM基础。 理…

    2025年12月15日
    000
  • 如何使用Python Flashtext模块?

    Flashtext是一款高效Python模块,利用Trie树结构实现快速关键词提取与替换,支持批量添加、不区分大小写模式,适用于日志处理、敏感词过滤等场景,性能优于正则表达式。 Flashtext 是一个高效的 Python 模块,用于在文本中快速提取关键词或替换多个关键词。相比正则表达式,它在处理…

    2025年12月15日
    000
  • Gemini Pro API安全设置详解:如何有效避免内容阻断

    gemini pro api在自定义安全设置后仍可能阻断回复。本文将详细解释为何直接设置字典无效,并提供正确的python代码示例,指导开发者通过导入`safetysetting`、`harmcategory`和`harmblockthreshold`等类,以对象列表形式配置安全阈值,从而有效管理内…

    2025年12月14日
    000
  • 正确配置Gemini Pro API安全设置以避免内容屏蔽

    本文旨在解决gemini pro api在使用自定义安全设置时仍遭遇内容屏蔽的问题。我们将深入探讨api安全设置的正确配置方法,指出常见误区,并提供基于`safetysetting`对象的标准实现方案,确保开发者能有效管理内容过滤,提升api调用的成功率。 在使用Google Gemini Pro …

    2025年12月14日
    000
  • 解决Gemini Pro API内容安全策略阻断回复的正确姿势

    本文旨在解决Gemini Pro API在使用`safety_settings`时仍遭遇内容阻断的问题。核心在于,许多开发者错误地使用字典配置安全设置,而API实际期望的是一个`SafetySetting`对象列表。本教程将详细指导如何正确导入相关类并构建符合API要求的安全设置,确保即使是敏感内容…

    2025年12月14日
    000
  • Python 实战:招聘网站数据分析案例

    Python通过爬虫、清洗与分析招聘数据,助力求职者定位薪资、优化技能并洞察行业趋势,同时帮助企业精准制定招聘策略与薪酬体系。 Python在招聘网站数据分析中,扮演着一个至关重要的角色,它能帮助我们从看似杂乱无章的海量招聘信息中,提炼出有价值的洞察,无论是了解行业趋势、薪资水平,还是分析岗位需求,…

    2025年12月14日
    000
  • Web scraping中同名标签的处理:多地点信息提取与过滤

    在Web scraping过程中,我们经常会遇到这样的挑战:目标数据所在的HTML元素共享相同的类名,导致直接提取会获取到所有相关信息,而我们可能只希望获取其中的一部分,或者对数据进行特定的过滤。例如,在抓取医生信息时,一位医生可能在多个地点提供服务,这些服务地点的HTML标签可能都拥有相同的类名。…

    2025年12月14日
    000
  • Copilot如何高效调用大型语言模型并避免资源浪费?

    Copilot:高效利用大型语言模型的秘诀 Copilot强大的代码补全和智能提示功能,得益于其对大型语言模型(如Claude、Gemini和GPT)的巧妙调用。本文将揭秘Copilot如何高效地与这些模型交互,避免资源过度消耗。 精细化的提示词策略 Copilot并非简单地将所有信息一股脑地塞给模…

    2025年12月13日
    000
  • AI模型的兴起,能够在各个行业创建内容,设计和解决方案

    引言 人工智能(AI)已不再是遥不可及的未来科技,它正深刻地改变着当今各行各业。先进的AI模型的出现,彻底革新了企业的内容创作、产品设计以及创新解决方案的开发模式。从AI写作助手到自动化图形设计工具,再到智能化业务解决方案,AI正以前所未有的方式改变着我们的工作方式和人机交互模式。 AI如何重塑内容…

    2025年12月13日
    000
  • 自动化每日Arxiv纸摘要和松弛通知

    this python script automates the process of fetching daily arxiv papers, generating summaries using gemini, and posting them to a slack channel. let&#…

    2025年12月13日
    000
  • 使用开源工具构建自己的AI模型:分步技术指南

    为什么构建自定义AI模型? 大型语言模型API(如GPT-4或Gemini)功能强大,但存在成本、延迟和缺乏自定义等局限性。开源模型(例如LLaMA 3、Mistral或BERT)允许您完全掌控模型,调整架构,并针对特定任务进行优化,例如医疗文本分析或实时无人机目标检测。本指南将指导您使用Huggi…

    2025年12月13日
    000
  • 使用 Nestjs、RAG、Prisma 和 Gemini API 构建上下文感知的待办事项列表

    本教程演示如何利用检索增强生成 (RAG) 技术构建一个具备上下文感知能力的待办事项列表应用。我们将结合Google Gemini API进行文本嵌入,借助pgvector高效管理向量数据,并使用Prisma和NestJS框架操作PostgreSQL数据库。此方案将实现诸如去重任务和基于上下文检索相…

    2025年12月13日
    000
  • 调试您的 Crew:在 CrewAI 中隔离代理和任务

    在使用CrewAI构建多代理AI系统时,调试和修改单个代理或任务可能会变得复杂。本文将介绍如何独立运行CrewAI中的代理和任务,从而简化调试和迭代过程。 为什么要隔离代理和任务? 隔离CrewAI组件如同测试大型系统的各个部件一样,具有以下优势: 简化调试: 快速定位问题,无需遍历整个系统的日志。…

    2025年12月13日
    000
  • 通过ffmpeg子进程进行视频数据IO

    在求职过程中,我需要完成一个处理视频数据的原型项目,这其中涉及到使用ffmpeg进行视频预处理,并将多个视频文件连接在一起播放。由于缺乏经验,我借助生成式ai聊天机器人(google gemini)的帮助完成了这个挑战。 项目目标是串联播放多个视频。我采用了最直接的方法——将视频文件连接起来。为此,…

    2025年12月13日
    000
  • 灵感墨水

    标题:利用 InspireInk 释放您的创造力:您的人工智能写作伴侣 写作有时感觉像是一次孤独的旅程,但如果你有一个同伴来引导你度过情节曲折、人物弧线和风格灵感呢?隆重推出 InspireInk,这是一款功能强大的人工智能驱动工具,专为想要提升手艺并将故事变为现实的作家而设计。 什么是 Inspi…

    2025年12月13日
    000

发表回复

登录后才能评论
关注微信