10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

想了解更多aigc的内容,

请访问:51CTO AI.x社区

https://www.51cto.com/aigc/

“只需”10万美元训练Llama-2级别的大模型

尺寸更小但性能不减的MoE模型来了:

它叫JetMoE,来自MIT、普林斯顿等研究机构。

性能妥妥超过同等规模的Llama-2。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

△贾扬清转发

要知道,后者可是数十亿美元级别的投入成本。

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。

不得说,大模型的打造成本,真的比人们想的要便宜更多了。

Ps. Stable Diffusion前老板Emad也点了赞:

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。

(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)

它的注意力层中仍然使用了MoE:

80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)。

每个MoA和MoE层又有8个专家,每次输入token激活2个。

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE-8B使用公开数据集中的1.25T token进行训练,学习率5.0 x 10-4,全局batch size为4M token。

具体训练方案遵循MiniCPM(来自面壁智能,2B模型就能赶超Mistral-7B)的思路,共包含两阶段

第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练,这些数据集包括RefinedWeb、Pile、Github data等等。

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

第二阶段则使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

最终,团队使用96×H100的GPU集群,花费2周时间、约8万美元搞定JetMoE-8B。

可图大模型 可图大模型

可图大模型(Kolors)是快手大模型团队自研打造的文生图AI大模型

可图大模型 32 查看详情 可图大模型

更多技术细节将在不久后发布的技术报告上揭露。

而在推理过程中,由于JetMoE-8B仅具有22亿个激活参数,因此计算成本大大降低——

同时,它还收获了不错的性能表现。

如下图所示:

JetMoE-8B在8个评测基准上获得了5个sota(包括大模型竞技场Open LLM Leaderboard),超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

在MT-Bench基准上得分6.681,也超过了130亿参数的LLaMA2、Vicuna等模型。

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

作者介绍

JetMoE一共4位作者,分别是:

Yikang Shen

MIT-IBM Watson Lab研究员,研究方向NLP。

本硕毕业于北航,博士经历于Yoshua Bengio创办的Mila研究机构。

国振 (Gavin Guo)

MIT博士在读, 研究方向为3D成像的数据高效机器学习。

UC伯克利本科毕业,去年夏天作为学生研究员加入MIT-IBM Watson Lab,导师为Yikang Shen等人。

蔡天乐

普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是Together.ai 的兼职研究员,与Tri Dao合作。

Zengyi Qin

MIT博士在读,同时在创业,MyShell的AI研发主管。

这家公司刚刚融资了1100万美元,投资者包括Transformer的作者。

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

传送门:https://github.com/myshell-ai/JetMoE
参考链接:https://twitter.com/jiayq/status/1775935845205463292

想了解更多aigc的内容,

请访问:51CTO AI.x社区

https://www.51cto.com/aigc/

以上就是10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/617737.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 04:50:21
下一篇 2025年11月11日 04:51:14

相关推荐

  • ai生成视频入口

    ai生成视频入口: 即梦ai:jimeng.jianying.com DeepSeek:chat.deepseek.com 访问这些工具的官方网站后,通常在首页显眼位置会看到“AI 生成视频”或“一键生成视频”等按钮。点击进入后,根据页面指引输入视频主题、脚本内容以及风格偏好等信息,即可利用 AI …

    2025年12月6日 软件教程
    000
  • deepseek在线聊天官网 deepseek免费AI生成入口

    DeepSeek在线聊天官网是https://www.deepseek.com,用户可通过浏览器访问并点击“开始对话”按钮,使用手机号、微信或邮箱登录后即可免费使用AI对话、深度思考、联网搜索及文档解析等功能。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek …

    2025年12月6日 科技
    000
  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 鸿蒙版QQ浏览器正式上架平板,五大AI能力全面上线,开启AI新体验

    近日,鸿蒙版qq浏览器正式登陆平板设备,将手机端广受好评的ai功能完整延伸至大屏,为用户带来一致且升级的智能体验。内置ai智能体qbot,全面支持ai搜索、ai浏览、ai办公、ai学习、ai写作五大核心能力,让鸿蒙平板的使用“大不一样”。 QQ浏览器接入腾讯混元与DeepSeek双AI大模型,用户可…

    2025年12月5日
    000
  • 高通万卫星:智能手机会成为Agentic AI部署最大入口

    如果你想点一杯咖啡外卖送到家里,使用传统手机app的操作流程大致如下:打开外卖软件,搜索“咖啡”或某个咖啡品牌,挑选一家合适的店铺,选择想要的饮品类型,设置是否去冰、是否减糖等偏好,填写收货地址,点击下单,再通过密码或人脸识别完成支付…… 但如果你的手机搭载了AI Agent(人工智能智能体),整个…

    2025年12月5日
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • DeepSeek支持的GPU型号有哪些?

    DeepSeek 支持多种 GPU 型号和配置,包括 NVIDIA、AMD 和国产显卡。1. NVIDIA GPU:主流架构包括 Ampere(A100、A30)、Hopper(H100、H200)、Ada Lovelace(RTX 4090)和 Blackwell(B200);其他高性能型号包括 …

    2025年12月5日
    000
  • Seed-Thinking-v1.5— 字节跳动推出的最新思考模型

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 豆包大模型 字节跳动自主研发的一系列大型语言模型 834 查看详情 Seed-Thinking-v1.5是什么 seed-thinking-v1.5 是字节跳动推出的推理智能模型,采用混合专家(…

    2025年12月4日 科技
    000
  • Skywork-OR1— 昆仑万维开源的高性能系列推理模型

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ Skywork 昆仑万维推出的通用AI智能体平台 255 查看详情 Skywork-OR1是什么 skywork-or1(open reasoner 1)是昆仑万维推出的开源高性能推理模型系列,…

    2025年12月4日 科技
    000
  • 个人电脑部署deepseek 全网最简单

    一、本地运行的三大核心好处 1、响应飞快 不用等待 将Deepseek部署在本地电脑后,所有运算任务都在本机内存或显卡上完成,彻底摆脱网络传输带来的延迟问题。无论是写代码、实时对话还是翻译文档,交互流畅如本地软件,即使断网也能照常使用。 2、数据私密 安全可靠 所有输入内容、聊天记录和文件处理过程都…

    2025年12月4日 电脑教程
    000
  • GLM-Z1-32B— 智谱开源的新一代推理模型

    glm-z1-32b是由智谱公司开发的全新开源推理模型,具体版本为glm-z1-32b-0414。此模型基于glm-4-32b-0414基座模型进行深度优化训练,特别在数学、代码和逻辑等任务上表现卓越,其部分性能甚至可以与参数量高达6710亿的%ign%ignore_a_1%re_a_1%-r1相媲…

    2025年12月4日
    000
  • GLM-4-32B— 智谱开源的新一代基座模型

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 智谱AI开放平台 智谱AI大模型开放平台-新一代国产自主通用AI开放平台 38 查看详情 glm-4-32b是智谱公司推出的新一代开源基座模型,参数版本为glm-4-32b-0414。该模型通过…

    2025年12月4日 科技
    100
  • MWC 新品前瞻:荣耀全面接入 DeepSeek “一句话的事”落地荣耀 AI PC

    荣耀magicbook pro 14惊艳发布,引领ai pc新时代!在mwc开幕前夕,荣耀抢先在国内发布了全新magicbook pro 14笔记本,并同步推出ai pc 2.0战略,以ai技术全面革新笔记本电脑体验。 荣耀AI PC 2.0战略涵盖AI内核驱动的智能硬件、AI智能体赋能的人机交互以…

    2025年12月4日 硬件教程
    000
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • 当贝AI双模型回答上线:支持多终端同步对比的跨平台服务

    7月14日消息,当贝ai正式上线“双模型回答”新功能。该功能通过同时调用两个独立训练的ai模型对用户问题进行解答,并将结果进行对比展示,帮助用户更快识别出更优答案。此次升级标志着当贝ai在提升智能交互效率和准确性方面迈出了重要一步,在保留原有核心功能的同时,进一步强化了“高效对比+全能服务”的使用体…

    2025年12月3日 行业动态
    000
  • 苹果回应马斯克指控:App Store 公平且无偏见

    感谢网友 風見暉一、对的时间点 提供的线索! 8 月 13 日,苹果公司针对埃隆・马斯克(Elon Musk)此前关于 App Store 在人工智能应用推广中偏袒 OpenAI 的 ChatGPT 的说法作出回应,强调其应用商店平台始终保持中立与公平。 苹果向彭博社记者马克・古尔曼(Mark Gu…

    2025年12月3日
    100
  • 英语学习软件哪个效果好?推荐7款助你快速提升的英语学习APP

    选对英语学习软件能事半功倍。星空外语AI纠音精准、场景丰富,适合系统提升口语;咕噜口语游戏化设计,趣味性强,易坚持;可栗口语专注雅思备考,真题模拟与思维纠正结合;Cambly提供真人外教互动,提升真实交流能力;多邻国零基础友好,免费入门培养语感;墨墨背单词科学记忆法攻克词汇;开言英语聚焦生活场景,听…

    2025年12月3日 软件教程
    000
  • 淘宝灰度测试“AI 万能搜”新功能

    8 月 19 日消息,淘宝正在灰度测试一项名为“ai 万能搜”的新功能,该入口位于淘宝 app 的搜索页面,以“ai 万能搜”tab 的形式呈现。 这项新功能具备深度思考能力,用户可通过自然语言进行提问,系统将自动生成一份包含文字、商品、视频和图片的综合性“答案报告”,帮助用户解决购物攻略、产品口碑…

    2025年12月3日
    200
  • 78键轻巧办公助手,雷柏E9050LAI多模无线刀锋键盘一键直达DeepSeek

    会思考的键盘,来了!当用户追求极致轻薄体验,厚度仅5.3mm、精简至78键的雷柏E9050L刀锋键盘应运而生;而当办公进入智能时代,集成AI功能、支持一键唤醒DeepSeek的雷柏E9050LAI多模无线刀锋键盘正式登场。 多设备无缝切换、12项多媒体快捷操作、长达240小时的无线续航已成为基础配置…

    2025年12月3日 行业动态
    200

发表回复

登录后才能评论
关注微信