来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

中国电子学会 2023 科学技术奖授奖名单公布,这次,我们发现了一个熟悉的身影 —— 腾讯 Angel 机器学习平台。
在大模型飞速发展的当下,科学技术奖授予机器学习平台类研究和应用项目,对于模型训练平台的价值和重要性给予了充分的肯定。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

科学技术奖认可了机器学习平台类项目的研究和应用,特别在大型模型快速发展的背景下,对模型训练平台的价值和重要性给予了充分的认可。

随着深度学习的兴起,各大公司开始认识到机器学习平台在发展人工智能技术中的重要性。谷歌、微软、英伟达等公司都推出了自己的机器学习平台,以加速人工智能模型的训练过程。这些平台为开发者提供了便捷的支持,使他们能够更快地构建和优化复杂的人工智能系统。这种趋势促使人们更加关注机器学习技术的发展,并为未来的人工智能应用打下了坚实的基础。

从2023年开始,大型模型的兴起进一步推动了模型参数量的提升。各大公司纷纷推出了参数规模达到千亿甚至万亿级别的模型,这些模型普遍采用深度神经网络结构。然而,这种发展也带来了两个核心痛点:模型分布式训练的困难以及应用复杂性所带来的模型设计挑战。

为什么是 Angel 机器学习平台?

详解四大核心技术突破

由多名院士等权威专家组成的鉴定委员会认为, 腾讯 Angel 机器学习平台技术复杂度高、研制难度大、创新性强,应用前景广阔,整体技术达到国际先进水平,其中面向 all-to-all 通信的高效缓存调度与管理技术、自适应预采样与图结构搜索技术达到国际领先水平。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

                              腾讯 Angel 平台架构图

腾讯的 Angel 机器学习平台采用了分布式参数服务器架构,这种架构的特点是将存储模型参数和执行模型计算这两个任务分别在不同的服务器上运行。通过增加更多的服务器,可以支持更大规模、计算需求更高的模型。这种架构使得模型训练过程更为高效,能够处理大规模数据集和复杂模型计算。分布式参数服务器的设计使得系统具有良好的扩展性和灵活性,能够满足不同规模和需求的机器学习任务。这种架构的优势在于可以有效地利用集群资源,提高计算效率,并为用户提供更快速、更

面对海量数据和超大规模模型训练需求 ,腾讯 Angel 机器学习平台在网络通信与缓存、模型存储与调度、多模态模型与融合学习排序以及大规模图模型与结构搜索技术等核心环节取得技术突破。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

为了提高训练效率,TB 级机器学习模型通常采用分布式训练方法,需要大量的参数和梯度同步,以 1.8T 模型千卡训练为例,IO 通信量达到 25TB, 耗时占比 53%,此外,加上不同算力集群间的异构网络环境,通信网络延迟不一,这些都对模型训练过程中的通信开销提出了较高的要求。腾讯 Angel 机器学习平台基于腾讯云星脉网络的高效通信与缓存调度管理技术,可有效解决 TB 级模型训练通讯开销大的问题,实现网络通信耗时减少 80%,分布式训练性能达业界主流方案的 2.5 倍。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

现有的算力条件下,尽管模型达到 TB 级,而主流 GPU 的显存仍只有 80G,参数存储有瓶颈。针对 TB 级模型训练参数存储难的关键问题, 腾讯 Angel 机器学习平台提出了显存主存统一视角存储管理机制,实现模型存储容量比业界增加 1 倍,训练性能是业界主流方案 2 倍。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

腾讯混元文生视频 腾讯混元文生视频

腾讯发布的AI视频生成大模型技术

腾讯混元文生视频 137 查看详情 腾讯混元文生视频

大模型要向通用模型发展,离不开对多模态数据的处理支持,不同模态,例如文字、图像、视频等数据的对齐融合理解难度大。在多模态模型的训练上, 腾讯 Angel 机器学习平台针对广告场景,提出多模态融合学习的全链路排序广告推荐技术,助力广告召回率提升 40% 以上。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

另外,针对面向推荐系统的图模型训练, 腾讯 Angel 机器学习平台设计了图节点特征自适应图网络结构搜索技术,可自动输出最优结构,解决了 TB 图模型应用中 “图数据挖掘难” 的问题,实现模型训练性能提升 28 倍,与业界比具有最优扩展性。

腾讯 Angel 机器学习平台锻造之路

腾讯混元大模型扩展到万亿规模

作为腾讯人工智能技术的基础平台,腾讯 Angel 平台诞生于 2015 年,支持 PS-Worker 分布式训练, 以及十亿参数 LDA 模型的训练。

2017 年,Angel 框架在 Github 开源,向开发者开放,同时,技术上,Angel 解决了异构网络下的通信问题,性能进一步提升。2019 年,在可扩展图模型多模态理解技术取得突破,解决万亿节点可扩展图模型问题。2021 年,提出 GPU 显存统一视角存储技术,解决大模型 参数存储与性能问题。

在腾讯通用人工智能大模型腾讯混元的打造中,腾讯 Angel 机器学习平台也发挥了重要作用。

2023 年 9 月,腾讯混元大模型正式对外亮相,预训练语料超 2 万亿 tokens,具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力。

面对建设腾讯混元大模型的需求,腾讯 Angel 机器学习平台打造了自研的面向大模型训练和推理的机器学习框架 Angel PTM 和 Angel HCF,支持单任务万卡级别超大规模训练和大规模推理服务部署。实现大模型训练效率提升至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50% 算力成本,升级后支持单任务万卡级别超大规模训练。在推理上,腾讯 Angel 机器学习平台推理速度提高了 1.3 倍,在腾讯混元大模型文生图的应用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。

此外,Angel 还提供了从模型研发到应用落地的一站式平台,支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建,腾讯会议、腾讯新闻、腾讯视频等超过 400 个腾讯产品及场景均已接入腾讯混元内测。

腾讯混元通过采用混合专家模型 (MoE) 结构,已将模型扩展至万亿级参数规模,推动了性能提升和推理成本下降。作为通用模型,腾讯混元在中文表现上处于业界领先水平,尤其在文本生成、数理逻辑和多轮对话中性能表现卓越。目前,腾讯混元也在积极发展多模态模型,以进一步加强文生图和文生视频能力。

腾讯大量的应用场景,为腾讯 Angel 机器学习平台的落地提供了实验地。除了腾讯混元大模型,腾讯 Angel 机器学习平台也支持了腾讯广告以及腾讯会议等产品,并通过腾讯云服务多个行业和企业客户,助力各行各业的数字化和智能化发展。

以腾讯广告为例,采用腾讯 Angel 机器学习平分布式训练优化、多模态理解图数据挖掘等创新技术,广告业务场景中的多模态大模型训练速度提升 5 倍,模型规模提升 10 倍,实现广告召回率大幅提升。

以上就是来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/618504.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 05:20:11
下一篇 2025年11月11日 05:21:27

相关推荐

  • 朱雀AI大模型官网 腾讯朱雀检测平台网页版入口

    朱雀AI大模型官网腾讯朱雀检测平台网页版入口为https://matrix.tencent.com/ai-detect/,该平台支持文本与图像的AI生成内容检测,提供智能分析、高亮标注及详细报告,用户可直接访问使用基础功能,登录腾讯云账户则享完整服务。 ☞☞☞AI 智能聊天, 问答助手, AI 智能…

    2025年12月6日 科技
    000
  • 如何在Laravel中实现文件上传功能

    在laravel中实现文件上传,核心在于利用其内置的storage门面与请求处理机制。1. 前端表单需设置enctype为multipart/form-data,并包含文件输入字段;2. 后端控制器使用request对象获取上传文件,并通过validate方法进行验证,确保文件类型、大小等符合要求;…

    2025年12月5日
    000
  • Composer如何配置GitHub token_解决API速率限制问题

    配置GitHub Token可解决Composer因API速率限制导致的安装问题,通过生成具备repo和read:packages权限的Token并全局或项目级配置,提升访问频率;若仍受限,可能因权限不足、IP共享、滥用或泄露所致,可通过使用镜像源、启用缓存、减少依赖等方式进一步优化,验证时可用cu…

    2025年12月5日
    000
  • 灵感号数字人直播带货全流程(附入门教程+专业工具资料)

    数字人直播带货能显著降低人力成本、提升直播效率与品牌一致性,其核心在于通过ai技术实现24小时不间断、标准化且可定制化的虚拟主播运营。要搭建一套完整的数字人直播带货流程,需从策略定位、数字人构建、内容策划、技术部署到数据优化五个环节系统推进:首先明确目标用户与品牌调性,设定数字人的人设;其次选择形象…

    2025年12月5日
    100
  • ThinkPHP的CDN怎么集成?ThinkPHP如何加速静态资源?

    选择cdn服务商并完成账号注册与实名认证;2. 将域名(如cdn.example.com)通过cname记录绑定至cdn服务商提供的地址;3. 上传静态资源(css、js、图片等)至cdn存储空间;4. 修改thinkphp配置文件中的静态资源url,指向cdn域名,如’css_url&…

    2025年12月4日 PHP框架
    000
  • PHPCMS与织梦CMS的附件管理功能对比评测

    phpcms附件管理更模块化、扩展性强,适合复杂媒体资产管理。①phpcms将附件作为独立内容类型管理,支持批量操作、筛选、编辑,并可灵活配置上传限制;②织梦cms则更偏向内容发布的便捷性,附件与文章绑定紧密,适合快速上传和所见即所得操作,但跨文章复用和批量管理较弱;③两者在面对海量附件时均需依赖对…

    2025年12月4日 后端开发
    000
  • QQ浏览器怎么同步数据_QQ浏览器多设备数据同步详细教程

    通过腾讯云端服务实现多设备数据同步,需登录同一QQ或微信账号并开启相应功能;2. 手机间联系人等数据迁移依赖“QQ同步助手”App,旧手机备份、新手机恢复即可;3. QQ浏览器内书签、历史记录同步需在设置中开启对应选项,登录相同账号后自动更新;4. 跨设备文件传输可通过电脑端“跨端传输”功能实现,同…

    2025年12月3日
    000
  • 如何用BOM获取用户的短信发送权限?

    网页无法通过bom直接获取短信发送权限,这是浏览器安全模型的设计原则;1. 浏览器禁止网页代码访问敏感硬件或系统功能,防止恶意行为;2. 可通过sms:协议启动短信应用,但需用户手动发送;3. web share api允许用户选择短信分享,但不能静默发送;4. 网页无直接api访问短信模块,所有敏…

    2025年12月3日 web前端
    000
  • Composer怎样使用?依赖管理与安装步骤

    composer是php项目的依赖管理工具,它通过声明、安装和更新项目所需的库简化了php开发流程。安装步骤包括:1.下载composer.phar文件;2.将composer.phar移动到系统path目录并赋予执行权限;3.windows用户可使用composer-setup.exe自动配置。核…

    2025年12月3日 后端开发
    000
  • 备份和恢复PHPCMS网站的文件和数据

    备份和恢复phpcms网站的核心是备份网站文件和数据库。具体步骤如下:1. 备份网站文件:使用ftp/sftp下载整个phpcms目录并压缩保存;2. 备份数据库:通过phpmyadmin或mysqldump命令导出sql文件;3. 恢复网站文件:上传至服务器并设置正确权限;4. 恢复数据库:创建新…

    2025年12月3日 后端开发
    000
  • mongodb数据库收费吗

    MongoDB开源免费,但云服务商托管服务如阿里云、腾讯云、MongoDB Atlas等按配置收费,包含计算、存储、备份及流量等项目,提供包年包月与按量付费模式,部分平台如Atlas提供M0免费集群用于学习。 MongoDB 本身是开源的,可以免费下载和使用。但当你使用云服务商托管的 MongoDB…

    2025年12月3日 数据库
    000
  • Golang Web静态资源CDN加速与缓存管理技巧

    通过CDN加速和缓存策略提升Golang Web服务静态资源加载速度,具体包括:使用http.FileServer提供静态服务并配置CDN域名;设置合理Cache-Control头区分长缓存与短缓存资源;采用文件名哈希实现精准缓存失效;结合构建流程读取manifest.json动态生成带哈希路径;上…

    2025年12月3日 后端开发
    000
  • Snipaste怎么设置截图的自动上传功能​

    snipaste本身不支持自动上传功能,但可通过组合第三方工具或脚本实现。具体步骤包括:1. 设置snipaste自动保存截图至指定文件夹;2. 选择上传目标如图床或云存储;3. 使用sharex、picgo、云盘同步客户端或编写python脚本来监控文件夹并自动上传。为确保隐私安全,应选择合适上传…

    2025年12月3日 软件教程
    000
  • Golang适配器模式第三方接口兼容示例

    适配器模式通过定义统一SMSSender接口,为阿里云和腾讯云短信服务分别实现AliyunAdapter和TencentAdapter适配器,使不同SDK接口标准化,业务层可透明切换服务商,提升扩展性与维护性。 在使用 Golang 开发项目时,经常会对接第三方服务,比如支付、短信、物流等。不同第三…

    2025年12月2日 后端开发
    000
  • postgresql混合云如何进行数据同步_postgresql云间同步策略

    混合云PostgreSQL数据同步需按业务需求选择逻辑复制、物理复制或CDC+消息中间件等策略:逻辑复制适用于跨云单向读写分离,物理复制限于同构高可用场景,CDC适合多目标异构集成;须重视网络加密、主键冲突规避、DDL协同及全链路监控。 混合云 PostgreSQL 数据同步的核心思路 混合云场景下…

    2025年12月2日 数据库
    000
  • composer如何使用prestissimo插件加速下载

    Prestissimo通过并行下载显著提升Composer依赖安装速度,支持全局安装composer global require “hirak/prestissimo”,自动生效无需配置,配合国内镜像与缓存优化可进一步加速,适用于大型项目。 使用 Prestissimo 插…

    2025年12月2日
    100
  • Go HTTP 服务面临 DDoS 攻击的防御策略与实践指南

    本文探讨 Go HTTP 服务器如何应对分布式拒绝服务(DDoS)攻击。强调防火墙作为基础安全的重要性,但指出其在应对复杂 DDoS 攻击时的局限性。对于多数 Go 服务而言,最有效且实际的 DDoS 防御策略是依赖专业的云服务提供商提供的网络级防护,而非在应用层盲目构建复杂的自适应防御机制,以避免…

    2025年12月2日 后端开发
    000
  • 在Java中如何实现图书借阅提醒通知功能_借阅提醒项目开发方法说明

    答案是Java通过定时任务扫描借阅记录并发送到期提醒。具体包括:分析需求,设计User、Book、BorrowRecord数据模型,使用@Scheduled注解每日执行检查,查询即将到期的借阅记录,并通过邮件等方式通知用户,支持短信、站内信等多渠道扩展,确保提醒及时可靠。 在Java中实现图书借阅提…

    2025年12月2日 java
    000
  • GitHub Pages静态网页图片加载慢且兼容性差怎么办?

    github pages静态网站图片加载慢及兼容性问题解决方案 许多开发者在使用GitHub Pages部署静态网站时,都会遇到图片加载缓慢的问题,尤其在网络条件不佳的情况下。本文将针对此问题,以及常见的跨设备兼容性问题提供解决方案。 问题描述:用户将包含HTML、CSS、JS和图片的静态网站上传到…

    2025年12月2日 web前端
    000
  • 《鸣潮》全球上线,超3000万预约玩家挤爆服务器

    库洛游戏力作《鸣潮》全球同步首发,创下佳绩!上线当日即登顶ios免费榜及畅销榜总榜第一,并荣获多个国家和地区榜首。此前,《鸣潮》全球预约量已突破3200万,预下载当晚便席卷全球100多个国家和地区的免费榜榜首,taptap评分更达8.6分。 《鸣潮》是一款耗时三年多研发的二次元开放世界动作游戏,采用…

    2025年12月2日 行业动态
    000

发表回复

登录后才能评论
关注微信