微软超强小模型引发热议:探讨教科书级数据的巨大作用

随着大模型掀起新一轮 AI 热潮,人们开始思考:大模型的强大能力来源于什么?

当前,大模型一直在由不断增加的「大数据」来推动。「大模型 + 大数据」似乎已经成为构建模型的标准范式。但随着模型规模和数据量的不断增长,算力的需求会迅速膨胀。一些研究者尝试探索新思路。重写后的内容:目前,大型模型一直在依靠不断增加的「大数据」来推动。 「大型模型 + 大数据」似乎已成为构建模型的标准范式。 但随着模型规模和数据量的不断增长,算力需求会迅速膨胀。 一些研究者正在尝试探索新的思路

微软在6月份发布了一篇名为《只需教科书》的论文,使用了一个只有7B个标记的数据集来训练了一个包含1.3B个参数的模型,称为phi-1。尽管数据集和模型大小相对于竞争对手来说小了几个数量级,但phi-1在HumanEval测试中的一次通过率达到了50.6%,在MBPP测试中达到了55.5%

phi-1 证明高质量的「小数据」能够让模型具备良好的性能。最近,微软又发表了论文《Textbooks Are All You Need II: phi-1.5 technical report》,对高质量「小数据」的潜力做了进一步研究。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

微软超强小模型引发热议:探讨教科书级数据的巨大作用

论文地址:https://arxiv.org/abs/2309.05463

微软超强小模型引发热议:探讨教科书级数据的巨大作用 天工大模型

中国首个对标ChatGPT的双千亿级大语言模型

微软超强小模型引发热议:探讨教科书级数据的巨大作用 115 查看详情 微软超强小模型引发热议:探讨教科书级数据的巨大作用

模型简介

架构

研究团队使用了phi-1的研究方法,并将研究的重点放在自然语言常识推理任务上,开发了一个拥有1.3B参数的Transformer架构语言模型phi-1.5。phi-1.5的架构与phi-1完全相同,有24层,32个头,每个头的维度为64,并且使用旋转维度为32的旋转嵌入,上下文长度为2048

此外,该研究还使用 flash-attention 进行训练加速,并使用 codegen-mono 的 tokenizer。

微软超强小模型引发热议:探讨教科书级数据的巨大作用

需要进行重写的内容是:训练数据

phi-1.5 的需要进行重写的内容是:训练数据是由 phi-1 的需要进行重写的内容是:训练数据(7B token)和新创建的「教科书质量」数据(大约 20B token)组成的。其中,新创建的「教科书质量」数据旨在让模型掌握常识推理,研究团队精心挑选了 20K 个主题来生成新数据。

值得注意的是,为了探讨网络数据(LLM 常用)的重要性,该研究还构建了 phi-1.5-web-only 和 phi-1.5-web 两个模型。

研究团队表示:创建强大且全面的数据集需要的不仅是原始计算能力,还需要复杂的迭代、有效的主题选择,以及对知识的深入了解,具备这些要素,才能确保数据的质量和多样性。

实验结果

该研究对于语言理解任务进行了评估,使用了多个数据集,包括PIQA、Hellaswag、OpenbookQA、SQUAD和MMLU。评估结果如表3所示,phi-1.5的性能可以与体积大5倍的模型相媲美

微软超强小模型引发热议:探讨教科书级数据的巨大作用

在常识推理基准上的测试结果如下表所示:

微软超强小模型引发热议:探讨教科书级数据的巨大作用

在更复杂的推理任务中,如小学数学和基础编码任务,phi-1.5的表现超过了大多数LLM

微软超强小模型引发热议:探讨教科书级数据的巨大作用

研究团队认为,phi-1.5 再次证明了高质量「小数据」的力量。

微软超强小模型引发热议:探讨教科书级数据的巨大作用

质疑与讨论

或许是因为「大模型 + 大数据」的理念太深入人心,这项研究遭到了机器学习社区一些研究人员的质疑,甚至有人怀疑 phi-1.5 直接在测试基准数据集上训练了。

微软超强小模型引发热议:探讨教科书级数据的巨大作用

网友Susan Zhang进行了一系列验证,并指出:“phi-1.5能够对GSM8K数据集中的原问题给出完全正确的回答,但只要稍微修改一下格式(例如换行),phi-1.5就不会回答了。”

微软超强小模型引发热议:探讨教科书级数据的巨大作用

微软超强小模型引发热议:探讨教科书级数据的巨大作用

还有修改问题中的数据,phi-1.5 在解答问题的过程中就会出现「幻觉」。例如,在一个点餐问题中,只修改了「披萨的价格」,phi-1.5 的解答就出现了错误。

微软超强小模型引发热议:探讨教科书级数据的巨大作用

微软超强小模型引发热议:探讨教科书级数据的巨大作用

并且,phi-1.5 似乎「记住了」最终答案,即使在修改数据的情况下该答案已经是错误的。

微软超强小模型引发热议:探讨教科书级数据的巨大作用

对此,一位论文作者Ronan Eldan迅速作出了回应,对上述网友测试中出现的问题进行了解释和反驳:

微软超强小模型引发热议:探讨教科书级数据的巨大作用

但该网友再次阐明其观点:测试说明 phi-1.5 的回答对 prompt 的格式是非常「脆弱」的,并对作者的回应提出质疑:

微软超强小模型引发热议:探讨教科书级数据的巨大作用

论文的第一作者李元智回应道:“虽然phi-1.5在稳健性方面确实不如GPT-4,但『脆弱』并不是准确的术语。事实上,对于任何模型来说,pass@k准确率都会比pass@1要高得多(所以模型的正确性是偶然的)

微软超强小模型引发热议:探讨教科书级数据的巨大作用

在看到这些质疑和讨论后,网友们纷纷表示:“最简单的回应方式就是公开合成数据集。”

微软超强小模型引发热议:探讨教科书级数据的巨大作用

你对此有什么看法?

以上就是微软超强小模型引发热议:探讨教科书级数据的巨大作用的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/496101.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 18:02:13
下一篇 2025年11月8日 18:03:30

相关推荐

  • 理解PHP Web应用中的静态变量、请求生命周期与数据持久化策略

    在php Web环境中,每次HTTP请求都会创建一个全新的、独立的执行环境,因此静态变量的值不会在不同请求之间保持。本文深入探讨了PHP中静态变量和方法的行为,解释了Web应用中数据持久化的必要性,并提供了通过数据库和会话管理实现数据持久化的策略,同时对比了node.js等其他环境的差异。 1. P…

    2025年11月15日
    000
  • 华为人工智能领域新专利公布 可降低扩散模型训练成本

    cnmo 获悉,7 月 18 日,华为技术有限公司申请的 ” 一种模型训练方法、数据生成方法及相关设备 ” 专利公布。该专利类型为发明公布,申请日是 2024 年 1 月 16 日,法律状态为审中。 华为集团 根据专利摘要显示,本申请涉及人工智能领域。该方法中,获取多个第一训…

    2025年11月15日
    300
  • 告别“炼丹玄学”:上海 AI 实验室推出首个大模型数据竞技场 OpenDataArena

    数据在 ai 时代的重要性已经不言而喻,但悬而未决的是—— 如何精确量化这些数据的价值、辨别其优劣? 为此,上海人工智能实验室 OpenDataLab 团队在数据领域持续深耕,正式推出了开放数据竞技场 OpenDataArena。 展开来说,在海量的 SFT(监督式微调)后训练数据面前,研究者们常常…

    2025年11月14日 硬件教程
    000
  • 【Linux】从虚拟到物理:解密地址空间的奥秘

    背景知识 在早期的时候,计算机还没有虚拟机制,程序指令所访问的内存地址就是物理地址,所以就要将所有程序都加载到内存中,但是我们实际的物理内存是有限的,那么就会出现一些问题: 当多个程序重新运行时,必须保证这些内存用到的内存总量小于计算机实际的物理内存的大小。内存使用效率低,内存空间不足,就需要将其他…

    2025年11月14日 运维
    000
  • 从助手函数内部识别调用它的控制器和方法

    本文探讨了如何在php助手函数内部,无需额外参数传递,动态获取调用该函数的控制器名称和方法名称。通过利用debug_backtrace机制并结合spatie/backtrace库,我们提供了两种解决方案:一种是在助手函数中直接集成回溯分析,另一种是更高级的全局异常处理方案,将控制器和方法信息自动注入…

    2025年11月14日
    000
  • 深度解析Linux中的冯诺依曼体系

    输入设备包括键盘、鼠标、话筒、摄像头等,以及网卡和磁盘(作为外部存储)。这些设备用于将外部数据传输到计算机内部。 输出设备包括显示器、磁盘、网卡和打印机,用于将计算结果或处理信息输出到外部。 CPU由运算器和控制器组成,负责执行指令和协调计算机系统的各部分。 存储器,即内存,是计算机的临时数据和程序…

    2025年11月13日
    000
  • Linux指令(3)

    上节复习 (1)我们上次学习了与文件和文件夹删除相关的指令,rm -rf 加上文件或文件夹的名字后,通常不会显示错误信息,直接删除; 我们之前学习了 rmdir 指令,用于删除空文件夹,但发现使用 rm 指令更加方便,无论是文件夹还是文件,有内容或无内容,rm 都可以删除; 需要补充的是 运算符,这…

    2025年11月13日 运维
    000
  • 五官乱飞,张嘴、瞪眼、挑眉,AI都能模仿到位,视频诈骗要防不住了

    如此强大的AI模仿能力,真的防不住,完全防不住。现在AI的发展已经达到了这种程度吗? 你前脚让自己的五官乱飞,后脚,一模一样的表情就被复现出来,瞪眼、挑眉、嘟嘴,不管多么夸张的表情,都模仿的非常到位。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型…

    2025年11月11日 科技
    000
  • RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

    随着大型语言模型(LLM)的发展,从业者面临更多挑战。如何避免 LLM 产生有害回复?如何快速删除训练数据中的版权保护内容?如何减少 LLM 幻觉(hallucinations,即错误事实)? 如何在数据政策更改后快速迭代 LLM?这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下,对于 LL…

    2025年11月11日 科技
    000
  • 纸质二维码也能隔空篡改:百米之外无痕攻击,秒变恶意网站入口

    现在,打印好的纸质二维码,可能也不安全了! 通过激光照射,攻击者在一百米开外就能分分钟实施篡改。 更可怕的是,这种激光用肉眼根本无法察觉,正常的二维码在无意之间就有可能变成恶意网站的入口。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 最近…

    2025年11月11日 科技
    000
  • 何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

    大佬何恺明还未正式入职mit,但和mit的第一篇合作研究已经出来了: 他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。 这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索…

    2025年11月11日 科技
    000
  • 开源大模型必须超越闭源——LeCun揭示2024年AI趋势图

    2023 年即将过去。一年以来,各式各样的大模型争相发布。当 Openai 和谷歌等科技巨头正在角逐时,另一方「势力」悄然崛起 —— 开源。 开源模型受到的质疑一向不少。它们是否能像专有模型一样优秀?是否能够媲美专有模型的性能?迄今为止,我们一直还只能说是某些方面接近。即便如此,开源模型总会给我们带…

    2025年11月11日 科技
    000
  • 更深层的理解视觉Transformer, 对视觉Transformer的剖析

    本文为经过自动驾驶之心公众号授权转载,请在转载时与出处联系 写在前面&&笔者的个人理解 目前,基于Transformer结构的算法模型已经在计算机视觉(CV)领域产生了极大的影响。它们在许多基本的计算机视觉任务上超越了以前的卷积神经网络(CNN)算法模型。以下是我找到的最新的不同基础…

    2025年11月11日 科技
    000
  • 解锁GPT-4和Claude2.1:一句话带你实现100k+上下文大模型的真实力,将27分提升至98

    各家大模型纷纷卷起上下文窗口,llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。 然鹅一项极限测试却发现,大部分人用法都不对,没发挥出AI应有的实力。 AI真的能从几十万字中准确找到关键事实吗?颜色越红代表AI犯的错越多。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免…

    2025年11月11日 科技
    000
  • 基于Adaptor和GPT的时间序列多任务一体化大型模型

    今天跟大家聊一聊大模型时间序列预测的最新工作,来自阿里巴巴达摩院,提出了一种基于adaptor的通用时间序列分析框架,在长周期预测、短周期预测、zero-shot、few-shot、异常检测、时间序列分类、时间序列填充等7项时间序列任务上都取得了显著的效果。 ☞☞☞AI 智能聊天, 问答助手, AI…

    2025年11月11日 科技
    000
  • 比马斯克脑机接口更精确微创,超声波读脑大法来了

    脑机接口赛道又有新消息传出。 IEEE Spectrum消息,一种新型微创超声脑机接口设备正在开发中。 ☞☞☞ai 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 该设备将传统的脑机接口介质脑电,改为了超声波。 原理是使用直接聚焦超声波(FUS)改变神经…

    2025年11月11日 科技
    000
  • ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

    写在前面&笔者的个人理解 自动驾驶车辆传感器层面的域变化是很普遍的现象,例如在不同场景和位置的自动驾驶车辆,处在不同光照、天气条件下的自动驾驶车辆,搭载了不同传感器设备的自动驾驶车辆,上述这些都可以被考虑为是经典的自动驾驶域差异。这种域差异对于自动驾驶带来了挑战,主要因为依赖于旧域知识的自动…

    2025年11月11日 科技
    100
  • UniVision引入新一代统一框架:BEV检测与Occupancy双任务达到最先进水平!

    写在前面&个人理解 近年来,自动驾驶技术中以视觉为中心的3D感知得到了迅猛发展。尽管3D感知模型在结构和概念上相似,但在特征表示、数据格式和目标方面仍存在差距,这对设计统一高效的3D感知框架提出了挑战。因此,研究人员需要努力解决这些差距,以实现更准确、可靠的自动驾驶系统。通过合作和创新,我们…

    2025年11月11日 科技
    000
  • RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多

    在大模型内卷的同时,transformer的地位也接连受到挑战。 近日,RWKV发布了eagle 7b模型,基于最新的RWKV-v5架构。 Eagle 7B在多语言基准测试中脱颖而出,在英语测试中与顶尖模型不相上下。 同时,Eagle 7B用的是rnn架构,相比于同尺寸的Transformer模型,…

    2025年11月11日 科技
    100
  • Windows、Office直接上手,大模型智能体操作电脑太6了

    提到AI助手的未来,人们很容易想到《钢铁侠》系列中的AI助手贾维斯。贾维斯在电影中展现了令人炫目的功能,不仅是托尼・斯塔克的得力助手,也是他与先进科技沟通的桥梁。随着大型模型的出现,人类使用工具的方式正在发生革命性变化,或许我们离科幻场景更近了一步。想象一下,一个多模态Agent能够像人类一样通过键…

    2025年11月11日 科技
    000

发表回复

登录后才能评论
关注微信