元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型

元象发布xverse-moe-a4.2b大模型 , 采用业界最前沿的混合专家模型架构 (mixture of experts),激活参数4.2b,效果即可媲美13b模型。该模型全开源,无条件免费商用,让海量中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型

GPT3、Llama与XVERSE等主流大模型发展遵循规模理论(Scaling Law), 在模型训练和推理的过程中,单次前向、反向计算时,所有参数都被激活,这被称为稠密激活 (densely activated)。 当 模型规模增大时,算力成本 会急剧升高。

随着越来越多的研究人员认为,稀疏激活(sparsely activated)的MoE模型,在增大模型规模时,可不显著增加训练和推理的计算成本,是一种更有效的方法。由于技术较新,目前国内大部分开源模型或学术研究尚未普及。

在元素自研中,使用相同语料训练2.7百万亿token,XVERSE-MoE-A4.2B实际激活参数量4.2B,性能“跳级”超越XVERSE-13B-2,仅计算量,并减少50%训练时间。与多个开源标杆Llama相比,该模型大幅超越Llama2-13B、接近Llama1-65B(下图)。

元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型

查看多项权威评测

在开源上,元素大模型”全家桶”持续迭代,将国产开源引领至国际一流水平。应用上,元素发挥AI+3D独特技术独特优势,推出大模型3D空间、AIGC工具等一站式解决方案,赋能文娱、旅游、金融等各行各业,在智能客服、创意体验、提效工具等多场景打造领先用户体验。

MoE技术自研与创新

教育部(MoE)是当前业界最前沿的模型框架,由于技术较新,国内开源模型或学术研究尚未普及。元对象自主研发了MoE的高效训练和推理框架,并在三个方向创新:

性能上,针对MoE架构中独特专家路由和权重计算逻辑,研发一套高效融合算子,显著提升了计算效率;针对MoE模型高显存使用和大通信量挑战,设计出计算、通信和显存卸载的重叠操作,有效提高整体处理吞吐量。

Qoder Qoder

阿里巴巴推出的AI编程工具

Qoder 270 查看详情 Qoder

架构上,与传统MoE(如Mixtral 8x7B)将每个专家大小等同于标准FFN不同,元象采用更细粒度的专家设计,每个专家大小仅为标准FFN的四分之一,提高了模型灵活性与性能;还将专家分为共享专家(Shared Expert)和非共享专家(Non-shared Expert)两类。共享专家在计算过程中始终保持激活状态,而非共享专家则根据需要选择性激活。这种设计有利于将通用知识压缩至共享专家参数中,减少非共享专家参数间的知识冗余。

训练上,受Switch Transformers、ST-MoE和DeepSeekMoE等启发,元象引入负载均衡损失项,更好均衡专家间的负载;采用路由器z-loss项,确保训练高效和稳定。

架构选择则经过一系列对比实验得出(下图),在 实验3与实验2中,总参数量和激活参数量相同,但前者的细粒度专家设计带来了更高的性能表现。实验4在此基础上,进一步划分共享和非共享两类专家,使得效果显著提升。实验5探索了专家大小等于标准FFN时,引入共享专家的做法,效果不甚理想。

元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型

对比实验设计方案

综合试验结果(下图),元象最终采用实验4对应的架构设置。展望未来,新近开源的Google Gemma与X(前Twitter)Grok等项目采用了比标准FFN更大的设定,元象也将在后续继续深入探索相关方向探索研,保持技术引领性。

元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型

对比实验效果

免费下载大模型

Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A4.2BModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A4.2BGithub:https://github.com/xverse-ai/XVERSE-MoE-A4.2B问询发送:opensource@xverse.cn

以上就是元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/951899.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月1日 17:42:12
下一篇 2025年12月1日 17:42:33

相关推荐

  • ai生成视频入口

    ai生成视频入口: 即梦ai:jimeng.jianying.com DeepSeek:chat.deepseek.com 访问这些工具的官方网站后,通常在首页显眼位置会看到“AI 生成视频”或“一键生成视频”等按钮。点击进入后,根据页面指引输入视频主题、脚本内容以及风格偏好等信息,即可利用 AI …

    2025年12月6日 软件教程
    000
  • deepseek在线聊天官网 deepseek免费AI生成入口

    DeepSeek在线聊天官网是https://www.deepseek.com,用户可通过浏览器访问并点击“开始对话”按钮,使用手机号、微信或邮箱登录后即可免费使用AI对话、深度思考、联网搜索及文档解析等功能。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek …

    2025年12月6日 科技
    000
  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • 鸿蒙版QQ浏览器正式上架平板,五大AI能力全面上线,开启AI新体验

    近日,鸿蒙版qq浏览器正式登陆平板设备,将手机端广受好评的ai功能完整延伸至大屏,为用户带来一致且升级的智能体验。内置ai智能体qbot,全面支持ai搜索、ai浏览、ai办公、ai学习、ai写作五大核心能力,让鸿蒙平板的使用“大不一样”。 QQ浏览器接入腾讯混元与DeepSeek双AI大模型,用户可…

    2025年12月5日
    000
  • 高通万卫星:智能手机会成为Agentic AI部署最大入口

    如果你想点一杯咖啡外卖送到家里,使用传统手机app的操作流程大致如下:打开外卖软件,搜索“咖啡”或某个咖啡品牌,挑选一家合适的店铺,选择想要的饮品类型,设置是否去冰、是否减糖等偏好,填写收货地址,点击下单,再通过密码或人脸识别完成支付…… 但如果你的手机搭载了AI Agent(人工智能智能体),整个…

    2025年12月5日
    000
  • DeepSeek支持的GPU型号有哪些?

    DeepSeek 支持多种 GPU 型号和配置,包括 NVIDIA、AMD 和国产显卡。1. NVIDIA GPU:主流架构包括 Ampere(A100、A30)、Hopper(H100、H200)、Ada Lovelace(RTX 4090)和 Blackwell(B200);其他高性能型号包括 …

    2025年12月5日
    000
  • Seed-Thinking-v1.5— 字节跳动推出的最新思考模型

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 豆包大模型 字节跳动自主研发的一系列大型语言模型 834 查看详情 Seed-Thinking-v1.5是什么 seed-thinking-v1.5 是字节跳动推出的推理智能模型,采用混合专家(…

    2025年12月4日 科技
    000
  • Skywork-OR1— 昆仑万维开源的高性能系列推理模型

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ Skywork 昆仑万维推出的通用AI智能体平台 255 查看详情 Skywork-OR1是什么 skywork-or1(open reasoner 1)是昆仑万维推出的开源高性能推理模型系列,…

    2025年12月4日 科技
    000
  • 个人电脑部署deepseek 全网最简单

    一、本地运行的三大核心好处 1、响应飞快 不用等待 将Deepseek部署在本地电脑后,所有运算任务都在本机内存或显卡上完成,彻底摆脱网络传输带来的延迟问题。无论是写代码、实时对话还是翻译文档,交互流畅如本地软件,即使断网也能照常使用。 2、数据私密 安全可靠 所有输入内容、聊天记录和文件处理过程都…

    2025年12月4日 电脑教程
    000
  • GLM-Z1-32B— 智谱开源的新一代推理模型

    glm-z1-32b是由智谱公司开发的全新开源推理模型,具体版本为glm-z1-32b-0414。此模型基于glm-4-32b-0414基座模型进行深度优化训练,特别在数学、代码和逻辑等任务上表现卓越,其部分性能甚至可以与参数量高达6710亿的%ign%ignore_a_1%re_a_1%-r1相媲…

    2025年12月4日
    000
  • GLM-4-32B— 智谱开源的新一代基座模型

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 智谱AI开放平台 智谱AI大模型开放平台-新一代国产自主通用AI开放平台 38 查看详情 glm-4-32b是智谱公司推出的新一代开源基座模型,参数版本为glm-4-32b-0414。该模型通过…

    2025年12月4日 科技
    100
  • MWC 新品前瞻:荣耀全面接入 DeepSeek “一句话的事”落地荣耀 AI PC

    荣耀magicbook pro 14惊艳发布,引领ai pc新时代!在mwc开幕前夕,荣耀抢先在国内发布了全新magicbook pro 14笔记本,并同步推出ai pc 2.0战略,以ai技术全面革新笔记本电脑体验。 荣耀AI PC 2.0战略涵盖AI内核驱动的智能硬件、AI智能体赋能的人机交互以…

    2025年12月4日 硬件教程
    000
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • 当贝AI双模型回答上线:支持多终端同步对比的跨平台服务

    7月14日消息,当贝ai正式上线“双模型回答”新功能。该功能通过同时调用两个独立训练的ai模型对用户问题进行解答,并将结果进行对比展示,帮助用户更快识别出更优答案。此次升级标志着当贝ai在提升智能交互效率和准确性方面迈出了重要一步,在保留原有核心功能的同时,进一步强化了“高效对比+全能服务”的使用体…

    2025年12月3日 行业动态
    000
  • 苹果回应马斯克指控:App Store 公平且无偏见

    感谢网友 風見暉一、对的时间点 提供的线索! 8 月 13 日,苹果公司针对埃隆・马斯克(Elon Musk)此前关于 App Store 在人工智能应用推广中偏袒 OpenAI 的 ChatGPT 的说法作出回应,强调其应用商店平台始终保持中立与公平。 苹果向彭博社记者马克・古尔曼(Mark Gu…

    2025年12月3日
    100
  • 英语学习软件哪个效果好?推荐7款助你快速提升的英语学习APP

    选对英语学习软件能事半功倍。星空外语AI纠音精准、场景丰富,适合系统提升口语;咕噜口语游戏化设计,趣味性强,易坚持;可栗口语专注雅思备考,真题模拟与思维纠正结合;Cambly提供真人外教互动,提升真实交流能力;多邻国零基础友好,免费入门培养语感;墨墨背单词科学记忆法攻克词汇;开言英语聚焦生活场景,听…

    2025年12月3日 软件教程
    000
  • 淘宝灰度测试“AI 万能搜”新功能

    8 月 19 日消息,淘宝正在灰度测试一项名为“ai 万能搜”的新功能,该入口位于淘宝 app 的搜索页面,以“ai 万能搜”tab 的形式呈现。 这项新功能具备深度思考能力,用户可通过自然语言进行提问,系统将自动生成一份包含文字、商品、视频和图片的综合性“答案报告”,帮助用户解决购物攻略、产品口碑…

    2025年12月3日
    200
  • 78键轻巧办公助手,雷柏E9050LAI多模无线刀锋键盘一键直达DeepSeek

    会思考的键盘,来了!当用户追求极致轻薄体验,厚度仅5.3mm、精简至78键的雷柏E9050L刀锋键盘应运而生;而当办公进入智能时代,集成AI功能、支持一键唤醒DeepSeek的雷柏E9050LAI多模无线刀锋键盘正式登场。 多设备无缝切换、12项多媒体快捷操作、长达240小时的无线续航已成为基础配置…

    2025年12月3日 行业动态
    200
  • 一键AI即问即答,雷柏E9350LAI多模无线刀锋键盘解锁智慧轻办公模式

    想轻松与ai互动?其实只需一个按键!雷柏e9350lai多模无线刀锋键盘采用99键紧凑布局,配备数字区与专属ai快捷键,一键唤醒deepseek,即刻提问、即时回应,开启智慧轻办公全新方式。 以“轻办公”为核心理念,兼顾实用性与美学设计。机身最薄处仅5.3MM,采用标志性的刀锋造型与经典剪刀脚结构,…

    2025年12月3日 行业动态
    100
  • 华为鸿蒙笔记本 MateBook Pro 发布 售价 7999 元起

    5 月 19 日,华为在 nova 14 系列以及鸿蒙电脑新品发布会上,正式发布了搭载 harmonyos 5 系统的鸿蒙笔记本 matebook pro,其售价从 7999 元起,并于即日开启预售,6 月 6 日正式上市销售。 华为 MateBook Pro 配备了一块 14.2 英寸的 3.1K…

    2025年12月3日 硬件教程
    000

发表回复

登录后才能评论
关注微信