AI大模型时代,数据存储新基座助推教科研数智化跃迁

生成式AI(AIGC)开启了人工智能通用化的新纪元,围绕大模型的百舸争流蔚为壮观,算力基础设施是首要的竞逐焦点,而存力觉醒也日益成为业界共识。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AI大模型时代,数据存储新基座助推教科研数智化跃迁

在新的时代,大模型从单模态走向多模态,参数和训练数据集的规模呈几何级数增长,海量的非结构化数据需要高性能混合负载能力的支撑;与此同时,数据密集型范式大行其道,超算、高性能计算(HPC)等应用场景迈向纵深,既有的数据存储基座已难以满足不断升级的需求。

如果说算力、算法、数据是驱动人工智能发展的“三驾马车”,那么在外部环境发生巨大变化的背景下,三者亟需重新达成动态的平衡。算法模型完善带来的“软实力”提升,算力供给优化引发的“硬实力”增强,需要得到进一步的加持——数据传输的“运力”和数据存储的“存力”即是尚待改进的动力源,新型的数据存储基座将在应对诸多挑战的过程中破茧成蝶。

需求复杂且持续进化的应用场景,是数据存储新基座最好的试金石。从这个意义上讲,教科研行业就是其中的典型代表:算力与数据是该领域数字化转型的关键要素,学科融合的科研计算与基于数据的决策支撑同等重要。从HPC迈向HPDA(高性能数据分析)是改善教学及科研效率的一大步,而AI的赋能则有助于解决过往算不了、算不准、算不动的难题。

AI大模型时代,数据存储新基座助推教科研数智化跃迁

在近日举办的2023世界人工智能大会上,华为OceanStor Pacific分布式存储助力上海交通大学构建的HPC+AI存力底座正式上线,“交我算”统一数据基座将在今年再扩充25PB,其有望成为教科研数字化、智能化转型的新标杆,也为数据存储新基座的探索之旅树立了一座里程碑。

数据与算力的关系演变与衍生挑战

伴随千行百业的数字化转型进入深水区,以及人工智能、大数据等新兴技术的协同爆发,数据与算力的关系正在发生微妙的变化。

AI大模型时代,数据存储新基座助推教科研数智化跃迁

教科研领域身处数字经济的风口浪尖,对这一变化颇为敏感。过去,数据必须跟着算力跑。为了应对复杂科学和工程问题的快速数值求解,教科研界在很长一段时间里更多关注如何打造最强大的算力,而数据仅作为算力的配套设施来考虑。

如今,“算力围着数据转”逐渐成为新的趋势。新兴应用的涌现、数据体量的膨胀、数据安全问题的凸显,让数据本身的价值备受重视。基于AI、大数据等技术的突破,传统超算正向数据密集型超算演变,多元异构算力需要围绕同一个数据存储基座进行构建。

上海交通大学网络信息中心副主任林新华认为,数据与算力的主导权发生逆转,既是建设数据密集型超算平台的契机,也给统一数据存储基座的构建带来不少新的挑战。

首先是数据爆发式增长,对存储容量的需求显著提高。据统计,“交我算”平台的数据规模增长幅度达到每年7PB,气象海洋、能源勘探、卫星遥感、基因测序、冷冻电镜、AI自动驾驶、制造CAE、动画渲染等应用场景的数据量都达到PB级,用一套数据基础设施容纳如此庞大的数据量殊为不易。

其次是新业务不断涌现,对存储性能要求更高。AI通用化进程的提速,特别是大模型、多模态的批量输出,对IO性能构成严峻挑战。在百TB级数据集成为常态的情况下,自然语言处理、多模态应用加剧了数据量的增速,小文件训练数据集的高效访问更要求存储性能再上新台阶。

再次,跨校区多集群存储共用,数据在异构集群间的流动可能造成数据丢失、运行缓慢等问题。“交我算”平台提供多种异构算力,拥有ARM集群、X86集群以及AI集群等。在众多集群中,只有做到全数据流动和数据融合,才能释放算力和数据的最大价值。

最后,传统AI本地盘训练,伴随高并发数据分析,打破IO墙迫在眉睫。数据多次搬迁过程中的IO瓶颈非常突出——传统的读写流程冗长,加载数据涉及三次数据搬迁,checkpoint也有两次数据搬迁,其间产生的效率损失不容忽视。

分布式存储统一融合数据基座的突围路径

为了应对上述挑战,自2019年起,上海交通大学与华为存储展开深度合作,共同打造“交我算”数据密集型超算平台。依托在技术和应用创新方面的深厚积累,华为OceanStor Pacific分布式存储产品助力“交我算”建设统一数据基座,支撑起全校多种异构算力平台。

AI大模型时代,数据存储新基座助推教科研数智化跃迁

构建分布式统一融合数据基座,是“交我算”拥抱新兴数据应用的必由之路。基于横向扩展分布式存储架构,“交我算”平台的存储容量和带宽可按需扩展。一是性能容量线性增长,单集群可达EB级容量;二是借助高密大容量硬件,节省机柜空间;三是采用大比例EC,以场景化压缩提升磁盘利用率。

据了解,“交我算”平台从初始的2PB容量、6GB/s带宽,到2020年增至20PB容量、60GB/s带宽,2022年又扩容至40PB容量、120GB/s带宽,预计2023年容量将再扩充25PB。与此同时,华为OceanStor Pacific分布式存储拥有5U 120盘位的超高密设计,结合超大比例EC数据冗余保护算法,在满足高可靠性的基础上将硬盘空间利用率提升至91.6%。

分布式全闪硬件加持是“交我算”应对存储性能难题的基石。在华为OceanStor Pacific的助力下,“交我算”平台采用全闪硬件加速,显著提升带宽与IOPS性能,每节点80万IOPS、带宽20GB/S能够满足混合负载条件下的高性能要求。

全局分布式存储跨校区统一管理是“交我算”解决多集群存储共用难题的良方。通过采用全局文件系统跨域多套存储管理的方式,“交我算”平台构建起跨校区的统一数据基座,在华为OceanStor Pacific分布式存储产品的支撑下,达成全局文件视图、数据管理与调度、全域数据流动、统一流式元数据等多重目标。

数据分析加速、多种协议访问无损互通、免搬迁高效用是“交我算”打破IO墙的利器。基于华为面向AI的存储方案,以及华为OceanStor Pacific分布式存储“一份数据,多种协议访问”的能力,“交我算”平台实现外置存储减少数据搬迁,并大幅提升分析效率、节省存储空间。

大模型时代HPDA+AI的未来图景

透过“交我算”平台携手华为存储打造分布式统一融合数据新基座的演变轨迹,不难看出数据密集型场景正在加速进化。

从早期的HPC到后来的HPDA,再到HPDA+AI的比翼齐飞,教科研行业的应用场景不断丰富,对存储产品和数据基座的需求也持续跃迁。事实上,教科研只是千行百业数字化进程的冰山一角,数据存储的大时代已呼啸而来。

大模型时代的到来,将进一步重塑包括存力在内的IT基础设施,带有崭新AI基因的存储产品有望成为行业数字化升级的新宠。7月14日,主题为“数据新范式 释放AI新动能”的大模型时代华为AI存储新品发布会将在线举行。无论您正在企业内部署AI,还是让开发的应用具备AI能力,此次发布的方案都将提供更优的技术架构与产品,帮您踏准时代的节拍。

人工智能通用化的大幕已经开启,存储行业的领头羊率先吹响了冲锋的号角,后面的每一个乐章都值得期待。

以上就是AI大模型时代,数据存储新基座助推教科研数智化跃迁的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/512880.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 01:45:19
下一篇 2025年11月9日 01:46:32

相关推荐

  • SessionStorage:数据存储的能力和支持的数据类型

    探索 SessionStorage 的功能:它可以存储什么类型的数据? SessionStorage 是 HTML5 中提供的一种客户端存储方式,可以用来在客户端存储数据,且只在当前会话期间有效。与 Cookie 类似,但 SessionStorage 拥有更大的存储容量,并且不会随着 HTTP 请…

    2025年12月21日
    000
  • 有效防止Localstorage数据丢失的方法

    如何避免Localstorage数据丢失? 随着Web应用程序的发展,数据的持久化成为了一个重要的问题。而Localstorage是一种非常常用的浏览器提供的数据持久化方案。但是,由于各种原因,LocalStorage中存储的数据有可能会丢失。本文将介绍几种避免LocalStorage数据丢失的方法…

    好文分享 2025年12月21日
    000
  • 优化localstorage数据存储的最佳实践

    使用localStorage存储数据的最佳实践 在现代Web开发中,本地存储是一项非常重要的技术。其中一种常用的本地存储机制是使用localStorage。localStorage是HTML5提供的一种在客户端保存数据的方法,它可以在浏览器中长期存储数据,不受浏览器关闭或页面刷新的影响。本文将介绍使…

    2025年12月21日
    000
  • localstorage的应用场景:它的功能有哪些?

    了解localstorage的主要应用:它能为我们做什么? 当今互联网时代,数据的存储和管理对于应用程序的开发至关重要。传统的方式包括使用数据库或服务器来存储数据,但随着前端技术的发展,我们现在还可以使用本地存储(localstorage)来实现数据的存储和管理。 localstorage是HTML…

    2025年12月21日
    000
  • 学习数据存储技巧:掌握sessionstorage的使用方法

    如何使用SessionStorage:快速掌握数据存储技巧 SessionStorage是一种用于在浏览器中临时存储数据的Web API。它提供了一种简单方便的方法,以便我们能够在用户会话期间将数据存储在浏览器中。本文将介绍如何使用SessionStorage,并提供具体的代码示例,帮助读者快速掌握…

    2025年12月21日
    000
  • 为什么localstorage无法成功保存数据?

    存储数据到localstorage为何总是失败?需要具体代码示例 在前端开发中,我们经常需要将数据存储在浏览器端,以便提高用户体验和方便之后的数据访问。Localstorage是HTML5提供的一项用于客户端存储数据的技术,它提供了一种简单的方法来存储数据,并且可以在页面刷新或关闭后保持数据的持久化…

    2025年12月21日
    000
  • 提高数据存储与管理效率,掌握localStorage技巧

    掌握localStorage的技巧,优化数据存储与管理 引言:在现代的Web开发中,数据的存储和管理是一个非常重要的问题。localStorage是HTML5提供的一种本地存储方案,它可以在浏览器中保存键值对的数据,使得我们可以方便地在不同的页面间共享数据。本文将介绍如何使用localStorage…

    2025年12月21日
    000
  • 如何用localStorage存储数据?

    localstorage是浏览器自带的小型数据库,允许持久化存储数据。主要方法包括setitem、getitem、removeitem和clear。通常每个域名下可存储约5mb数据,适合存储用户配置或简单状态,但不适合大量或复杂数据。存储的数据不安全,用户可访问修改,敏感信息需加密处理。数据不会自动…

    2025年12月20日 好文分享
    000
  • C++语言在嵌入式系统中实现高效能数据存储功能的方法

    C++语言在嵌入式系统中实现高效能数据存储功能的方法 嵌入式系统是指集成了计算机硬件和软件的特定用途的计算机系统。在嵌入式系统中,数据存储功能非常重要,因为它涉及到数据的读取和写入速度、存储空间的利用效率等问题。在本文中,我们将介绍如何使用C++语言在嵌入式系统中实现高效能的数据存储功能,并提供相应…

    2025年12月17日
    000
  • RSS阅读器如何存储数据?

    RSS阅读器的数据存储方式主要分为本地存储和云端存储,前者多采用SQLite等嵌入式数据库保存订阅源、文章元数据及阅读状态,适合注重隐私与离线使用的桌面端应用;后者通过PostgreSQL、MySQL等服务端数据库实现跨设备同步,保障数据一致性与高可用性,常见于Web端服务。为应对全文存储带来的空间…

    2025年12月17日
    000
  • 如何在Python中进行数据可靠性存储和恢复

    如何在Python中进行数据可靠性存储和恢复 在开发Python应用程序时,数据的可靠性是一个非常重要的考量因素。合理的数据存储和恢复策略可以防止数据丢失、提高应用程序的稳定性。本文将介绍在Python中进行数据可靠性存储和恢复的几种常用方法,并提供具体的代码示例。 数据存储的几种方式 (1)文本文…

    2025年12月13日
    000
  • 24小时币圈新闻 2025.10.21币圈最新消息

    Binance币安 欧易OKX ️ Huobi火币️ $BTC 上涨突破11.1万后调整至11万上方, $ETH 回调跌破4000, $SOL  $BNB跟随。 24小时币圈新闻 1. 美国政府最长停摆纪录或被打破; 2. 现货黄金再创历史新高,短时突破4380美元/盎司; 3. 日媒:日本正考虑允…

    2025年12月9日
    000
  • 华为新机发布计划曝光:Pura 90系列或明年4月登场

    近日,有数码博主透露了华为2025年至2026年的新品规划,其中pura 90系列预计在2026年4月发布,有望成为华为新一代影像旗舰。根据路线图,华为将在2025年底至2026年陆续推出mate 80系列、折叠屏新机mate x7系列以及nova 15系列,而pura 90系列则将成为2026年上…

    2025年12月6日 行业动态
    200
  • 朱雀AI大模型官网 腾讯朱雀检测平台网页版入口

    朱雀AI大模型官网腾讯朱雀检测平台网页版入口为https://matrix.tencent.com/ai-detect/,该平台支持文本与图像的AI生成内容检测,提供智能分析、高亮标注及详细报告,用户可直接访问使用基础功能,登录腾讯云账户则享完整服务。 ☞☞☞AI 智能聊天, 问答助手, AI 智能…

    2025年12月6日 科技
    000
  • 怎么向mongodb中存入数据?

    使用insertOne或insertMany向MongoDB指定集合插入数据,自动添加_id字段,手动指定需避免重复,注意数据类型与字段名规范。 向 MongoDB 中存入数据,主要使用 insert 或 save 方法,通过指定数据库和集合来完成。只要连接到 MongoDB 实例,选择目标数据库和…

    2025年12月3日 数据库
    000
  • 360搜索官方直链入口 360引擎免费浏览器登录地址

    360搜索官网为https://www.so.com,360安全浏览器官网为https://browser.360.cn,可下载软件并使用登录管家、云同步等功能,另有360安全中心和360AI官网提供其他服务。 360搜索官方网址 360搜索的主站地址是 https://www.so.com。这是最…

    2025年12月2日 电脑教程
    000
  • 如何在mysql中设计问卷调查数据存储

    答案是采用结构化回答表设计,通过surveys、questions、options和response_answers等表存储问卷信息与回答,兼顾查询效率与统计便利性。 在 MySQL 中设计问卷调查的数据存储,关键在于平衡灵活性与查询效率。常见的做法是将结构化数据和非结构化数据结合使用,适应不同类型…

    2025年12月2日 数据库
    000
  • 百度翻译在线网页版_百度翻译实时翻译入口

    百度翻译在线网页版入口为https://fanyi.baidu.com/,支持200多种语言互译,具备自动识别语言、双向即时翻译、多格式文件上传翻译、保留原排版、图片文字识别翻译、语音输入翻译及网页划词翻译等功能,适用于旅游、商务、学习等多种场景。 百度翻译在线网页版入口在哪里?这是不少网友都关注的…

    2025年12月2日 电脑教程
    000
  • 秘塔AI大模型入口 秘塔AI在线版大模型官网入口

    秘塔AI大模型官网入口为https://metaso.cn/,该平台基于自研MetaLLM模型提供智能搜索、文档提炼、AI写作等功能,支持多任务拆解与算法优化,具备高效响应、极简交互、多样化结果呈现及历史记录保存等优势,依托DeepSeek R1协同运算,确保语义解析准确性与知识库实时更新,同时设有…

    2025年12月2日 科技
    000
  • 本田推迟纯电旗舰GT上市时间 战略调整应对市场竞争

    11月10日,据多方消息证实,本田汽车已正式决定将原定于2025年12月前在中国市场推出的纯电动旗舰车型honda gt(grand tourer)的发布时间推迟至2026年以后。此次调整源于本田对中国电动车市场竞争态势的重新研判,尤其是在面对本土品牌在定价策略和技术配置方面持续加速迭代的情况下,公…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信