10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

程序猿 • 2025年11月11日 04:50:59 • 用户投稿 • 阅读 0

想了解更多aigc的内容，

请访问：51CTO AI.x社区

https://www.51cto.com/aigc/

“只需”10万美元，训练Llama-2级别的大模型。

尺寸更小但性能不减的MoE模型来了：

它叫JetMoE，来自MIT、普林斯顿等研究机构。

性能妥妥超过同等规模的Llama-2。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

△贾扬清转发

要知道，后者可是数十亿美元级别的投入成本。

JetMoE发布即完全开源，且学术界友好：仅使用公开数据集和开源代码，用消费级GPU就能进行微调。

不得说，大模型的打造成本，真的比人们想的要便宜更多了。

Ps. Stable Diffusion前老板Emad也点了赞：

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。

（ModuleFormer，一种基于稀疏专家混合(SMoE)的模块化架构，可提高大模型效率和灵活性，去年6月提出）

它的注意力层中仍然使用了MoE：

80亿参数的JetMoE一共有24个区块，每块包含2个MoE层，分别是注意力头混合 (MoA) 和MLP专家混合 (MoE）。

每个MoA和MoE层又有8个专家，每次输入token激活2个。

JetMoE-8B使用公开数据集中的1.25T token进行训练，学习率5.0 x 10-4，全局batch size为4M token。

具体训练方案遵循MiniCPM（来自面壁智能，2B模型就能赶超Mistral-7B）的思路，共包含两阶段：

第一阶段使用线性预热的恒定学习率，用来自大规模开源预训练数据集的1万亿个token进行训练，这些数据集包括RefinedWeb、Pile、Github data等等。

第二阶段则使用指数学习率衰减，用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。

最终，团队使用96×H100的GPU集群，花费2周时间、约8万美元搞定JetMoE-8B。

可图大模型

可图大模型（Kolors）是快手大模型团队自研打造的文生图AI大模型

32 查看详情

更多技术细节将在不久后发布的技术报告上揭露。

而在推理过程中，由于JetMoE-8B仅具有22亿个激活参数，因此计算成本大大降低——

同时，它还收获了不错的性能表现。

如下图所示：

JetMoE-8B在8个评测基准上获得了5个sota（包括大模型竞技场Open LLM Leaderboard），超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。

在MT-Bench基准上得分6.681，也超过了130亿参数的LLaMA2、Vicuna等模型。

作者介绍

JetMoE一共4位作者，分别是：

Yikang Shen

MIT-IBM Watson Lab研究员，研究方向NLP。

本硕毕业于北航，博士经历于Yoshua Bengio创办的Mila研究机构。

国振 (Gavin Guo)

MIT博士在读，研究方向为3D成像的数据高效机器学习。

UC伯克利本科毕业，去年夏天作为学生研究员加入MIT-IBM Watson Lab，导师为Yikang Shen等人。

蔡天乐

普林斯顿博士在读生，本科毕业于北大应用数学和计算机科学，目前也是Together.ai 的兼职研究员，与Tri Dao合作。

Zengyi Qin

MIT博士在读，同时在创业，MyShell的AI研发主管。

这家公司刚刚融资了1100万美元，投资者包括Transformer的作者。

传送门：https://github.com/myshell-ai/JetMoE
参考链接：https://twitter.com/jiayq/status/1775935845205463292

想了解更多aigc的内容，

请访问：51CTO AI.x社区

https://www.51cto.com/aigc/

以上就是10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/617737.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

明日方舟离解复合15-11高练挂机攻略主线第十五章沙盘推演攻略

上一篇 2025年11月11日 04:50:50

thinkphp显示连接错误怎么办

下一篇 2025年11月11日 04:50:59

html的盒模型详解

这次给大家带来html的盒模型详解，使用html盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素： –生成该盒的元素是否设置了’width’或&#82…

程序猿
用户投稿 2025年12月21日
0000
用户投稿

DeepSeek和Chatgpt可以＆＃t正确：如何使用元数据更新Cloudflare KV对

使用cloudflare kv更新键值对及其元数据本文提供使用Cloudflare KV API更新键值对及其元数据的代码示例。虽然大型语言模型可以生成代码，但仔细阅读官方文档仍然至关重要。以下代码片段演示了如何使用fetch API 更新Cloudflare KV中的键值对，同时更新其元数据…

程序猿
2025年12月19日
0000
用户投稿

如何将Ollama整合到Nextjs中

利用ollama和next.js构建llm驱动应用人工智能和大语言模型（LLM）正以前所未有的速度改变着我们的生活。新的模型和集成方案（例如AI代理和运营商）层出不穷，加入这个激动人心的浪潮势在必行。本文将指导您如何将Ollama与Next.js集成，构建基于LLM的应用程序。我们将学习如何下载开…

程序猿
2025年12月19日
0000
用户投稿

Debian Apache2的SEO优化技巧有哪些

Debian Apache2的SEO优化技巧涵盖多个层面，以下是一些关键方法：关键词研究：利用工具（如关键词魔术工具）挖掘页面的核心及辅助关键词。优质内容创作：产出有价值且原创的内容，内容需经过深入调研，确保语言流畅且格式清晰。内容排版与结构优化：运用标题和小标题引导阅读。编写简洁明了的段落…

程序猿
2025年12月15日
1000
用户投稿

Debian Strings如何提升开发效率

在debian系统中，提升开发效率可以通过多种方法实现。以下是一些实用的技巧和工具，可以帮助你更高效地进行开发和管理工作。使用高效的包管理工具 Debian的包管理工具 apt（包括 apt-get、aptitude 和 apt 命令）是提高开发效率的关键。通过这些工具，你可以轻松地安装、更新和删…

程序猿
2025年12月15日
2000
DeepSeek怎么本地部署-DeepSeek本地部署教程详解

deepseek本地部署教程：三步快速体验ai大模型！ DeepSeek凭借其先进算法和卓越性能，成为现象级AI产品，但服务器压力巨大。为了解决服务器繁忙问题，本文提供DeepSeek本地部署教程，只需三步即可在您的电脑上运行DeepSeek。第一步：安装Ollama Ollama是一个支持多种大…

程序猿
2025年12月15日 • 用户投稿
1000
用户投稿

在线活动：python英语（2月2月

未来十天内，我整理了一些与英语相关的在线Python活动，并考虑了不同时区。这份列表可按主题和时间筛选，方便您查找合适的活动。主题 UTC EST PST NZL AI趋势追踪：DeepSeek o1、Titans等2月20日 03:002月19日 22:002月19日 19:002月20日 16…

程序猿
2025年12月13日
0000
用户投稿

瑞波币(XRP)的未来价值分析，XRP币2025年至2030年价格预测

XRP价格预测显示2025年可能在1.56至9美元间波动，受技术形态突破、监管明朗化及机构采用推动，长期看2030年或达6.36美元。 Binance币安欧易OKX ️ Huobi火币️ gateio芝麻瑞波币(XRP)的价格预测受多种因素影响，包括市场情绪、监管动态和技术指标。当前分析显示…

程序猿
2025年12月9日
1000
用户投稿

预售中的迷因币：2025年的加密货币热潮

2025年迷因币热潮：从Troller Cat到Dogecoin 想象一下：迷因币已不再只是个玩笑。现在是2025年6月，加密货币市场正因迷因币、预售和“百倍币”的承诺而热情高涨。让我们来看看哪些项目正在崛起，哪些又在逐渐失宠。 Troller Cat：预售之王别再看那些普通的迷因币了；Troll…

程序猿
2025年12月8日
0000
用户投稿

比特币、XRP 与凯蒂·斯托克顿：驾驭加密货币的浪潮

比特币狂潮、xrp人工智能预测与katie stockton在加密动荡中的技术视角比特币、XRP与Katie Stockton：穿越加密风暴加密市场风起云涌！比特币价格屡破纪录，XRP借力AI预测波动剧烈，而分析师Katie Stockton持续带来专业解读。我们来逐一剖析这些热点。比特币强势…

程序猿
2025年12月8日
1000
用户投稿

Neo Pepe，XRP和Cardano：Memecoin夏季对决？

neo pepe coin（$neop）凭借其预售表现和certik审计高分正迅速崭露头角，并与xrp和cardano在defi创新领域展开竞争，同时受到grayscale最新altcoin动态的关注。 Neo Pepe、XRP与Cardano：Memecoin夏日争霸战？加密市场从不缺乏热点，如…

程序猿
2025年12月8日
0000
用户投稿

DeepSeek AI模型预测Cardano的原始令牌ADA可能达到7美元

在人工智能（ai）生态系统中，ai模型针对部分数字资产做出了引人注目的价格预测，并指出基本面的发展是推动价格上涨的关键驱动力。加密市场参与者迎来了新的月份，开始重新关注比特币及一些主流山寨币，整体情绪偏向乐观。在中国，名为DeepSeek的人工智能模型近期对几类替代性加密货币，其中包括Carda…

程序猿
2025年12月8日
0000
用户投稿

加密货币市场中的人工智能（AI）代币已经看到了相当大的上升

人工智能（ai）代币在加密货币市场中的表现十分抢眼，该领域的市值于5月份增长了17%，达到了380亿美元。 Pintunews雅加达报道——5月份，加密货币市场经历了一次显著的变化，其中AI代币的总市值显著提升，增幅达到17%，目前总额为380亿美元。在这次增长的背后，去中心化金融（DeFi）板块…

程序猿
2025年12月8日
0000
ai生成视频入口

ai生成视频入口：即梦ai：jimeng.jianying.com DeepSeek：chat.deepseek.com 访问这些工具的官方网站后，通常在首页显眼位置会看到“AI 生成视频”或“一键生成视频”等按钮。点击进入后，根据页面指引输入视频主题、脚本内容以及风格偏好等信息，即可利用 AI …

程序猿
2025年12月6日 • 用户投稿
0000
deepseek在线聊天官网 deepseek免费AI生成入口

DeepSeek在线聊天官网是https://www.deepseek.com，用户可通过浏览器访问并点击“开始对话”按钮，使用手机号、微信或邮箱登录后即可免费使用AI对话、深度思考、联网搜索及文档解析等功能。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek …

程序猿
2025年12月6日 • 用户投稿
11000
用户投稿

HiDream-I1— 智象未来开源的文生图模型

hidream-i1：一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型，采用MIT许可证，在图像质量和对提示词的理解方面表现卓越。它支持多种风格，包括写实、卡通和艺术风格，广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

程序猿
2025年12月5日
3000
用户投稿

vivo Pad3 Pro 正式登场跑分离谱还有蓝心大模型

中关村在线消息：vivo 旗舰新品发布会正在进行中，本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸，搭载天玑 9300 处理器，跑分超过 210 万，也是行业首个突破 200 万的平板电脑。在游戏测试中，在 90 帧 +hdr 高清画质下，帧率稳定一条直线，性能十分…

程序猿
2025年12月5日
0000
用户投稿

鸿蒙版QQ浏览器正式上架平板，五大AI能力全面上线，开启AI新体验

近日，鸿蒙版qq浏览器正式登陆平板设备，将手机端广受好评的ai功能完整延伸至大屏，为用户带来一致且升级的智能体验。内置ai智能体qbot，全面支持ai搜索、ai浏览、ai办公、ai学习、ai写作五大核心能力，让鸿蒙平板的使用“大不一样”。 QQ浏览器接入腾讯混元与DeepSeek双AI大模型，用户可…

程序猿
2025年12月5日
5000
用户投稿

高通万卫星：智能手机会成为Agentic AI部署最大入口

如果你想点一杯咖啡外卖送到家里，使用传统手机app的操作流程大致如下：打开外卖软件，搜索“咖啡”或某个咖啡品牌，挑选一家合适的店铺，选择想要的饮品类型，设置是否去冰、是否减糖等偏好，填写收货地址，点击下单，再通过密码或人脸识别完成支付…… 但如果你的手机搭载了AI Agent（人工智能智能体），整个…

程序猿
2025年12月5日
0000
谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的 tokenizer 所致，而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude 3.5 也无法幸免。…

程序猿
2025年12月5日 • 用户投稿
1000