一文看懂“存算一体”

今天这篇文章,我们来聊一个最近几年很火的概念 —— 存算一体

█ 为什么会提出“存算一体”?

存算一体,英文叫 Compute In Memory,简称 CIM。顾名思义,就是将存储和计算放在一起。

大家都知道,存储和计算,是我们处理数据的两种基本方式。自从计算机诞生以来,我们采用的主流计算架构,是著名的冯・诺伊曼架构。在这个架构中,存储和计算是两个相对独立的模块。存储负责数据的存取,而计算则负责运算。

一文看懂“存算一体”

冯・诺依曼架构

我们可以把存储理解为配菜,计算理解为炒菜。两者配合到位,才能完成菜品的制作(完成计算任务)。

理论上来说,想要出菜的速度更快,一方面,要加快炒菜的速度(通过提升芯片的算力,例如采用更先进的工艺制程),另一方面,也要加快配菜的速度。

这个速度,简单来说,就是存储设备与计算芯片(CPU、GPU 等)之间的数据传输能力。如果配菜太慢,炒菜师傅就要等待,从而影响整体效率。

以前小枣君给大家介绍存储的时候曾经说过,计算机的存储,是典型的分级策略 —— 越靠近处理器(计算单元)的存储设备,速度越快,容量越小。有缓存(1 级 / 2 级 / 3 级)、内存、磁盘(固态 / 机械)、外部存储器(本地磁阵、云存储)这样的不同类型存储设备(单元)。

一文看懂“存算一体”

这是由存储设备的成本决定的。速度越快的存储设备,成本越高。全部都用最快的存储,是不现实的,价格太高昂,所以才有了逐级存储机制。

冯・诺依曼架构,我们用了几十年,因为数据存储和计算是明显分开的,所以也叫做存算分离

进入互联网时代后,由于数据量呈现爆炸式增长,对数据计算效率的要求越来越高。这种传统的架构开始暴露出能力上的缺陷。

尤其是最近这些年,AI 的崛起,让数据计算强度又跃升了好几个层级。计算芯片在疯狂提速,而存储传输速率的提升跟不上,由此产生了著名的两堵墙 ——“存储墙”“功耗墙”

所谓“存储墙”,是指存储设备和处理器之间的数据传输速度,远远跟不上处理器的计算速度。就像炒菜师傅手艺再好,配菜师傅跟不上节奏,也只能干着急。

一文看懂“存算一体”

业内曾提出,AI 运算需要的存算通道速率是 1PB/s。SRAM 的 10-100TB/s、DRAM 的 40GB-1TB/s,都远达不到要求。

而“功耗墙”则是指,在数据传输过程中,能耗巨大,导致整体系统的能效比不理想。这就像是为了快速配菜,不得不请很多帮手,结果人工成本大大增加。

例如,在 7nm 工艺下,数据搬运的功耗占比甚至达到了惊人的 63.7%,远远大于数据计算的功耗。

大家应该都听说过 HBM 技术

HBM(High Bandwidth Memory,高带宽内存),就是一种尝试解决“存储墙”和“功耗墙”问题的新型存储技术。像英伟达这样的芯片厂商,采用 3D 封装等先进工艺,将存储单元和计算单元封装在一起,通过缩短两者之间的距离,提高数据传输速度,同时降低能耗。

一文看懂“存算一体”

HBM 在一定程度上缓解了问题,但并没有从根本上改变存算分离的现状。于是,业界提出了一个新的解决思路,那就是 —— 存算一体

既然存储和计算分离会导致带宽瓶颈,那么,把存储和计算直接结合在一起,让数据在存储的过程中就能进行计算,或者在计算的过程中就能直接访问存储,从而减少数据的搬运次数,不就行了吗?

这样一来,既可以提高整体计算效率,也可以降低功耗,彻底解决“两堵墙”的问题。

实际上,我们的大脑,就是典型的存算一体结构。神经元既负责存储信息(记忆),也负责处理信息(思考)。这种结构,使得大脑能够以极高的效率处理复杂的任务,而且能耗极低。

存算一体的发展历程

存算一体的研究,其实很早就已经开始了。

早在 1969 年,斯坦福研究所的 Kautz 等人,率先提出了存算一体计算机的概念。但是,受限于当时的技术和工艺,概念仅仅停留在理论研究阶段,并未得到实际应用。

后来,为了实现存算一体,科学家们进行了大量的研究和尝试,但仍然进展缓慢。

进入 21 世纪后,芯片与半导体技术日趋成熟,存算一体化实现的曙光亦逐渐显现。科学家们发现,某些特殊的材料或器件,能够在存储数据的同时,在存储单元内部执行简单的逻辑运算。这将大大减少数据的搬运次数和功耗。

2010 年,惠普实验室的 Williams 教授团队提出并验证利用忆阻器实现简单布尔逻辑功能(联合、相交、相减等)。

2016 年,美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队,提出使用阻变存储器(RRAM)构建存算一体架构的深度学习神经网络(PRIME)。相较于传统冯・诺伊曼架构方案,PRIME 可以实现功耗降低约 20 倍、速度提升约 50 倍。

2017 年,在微处理器顶级年会(Micro 2017)上,包括英伟达、英特尔、微软、三星、苏黎世联邦理工学院与加州大学圣塔芭芭拉分校等都推出了他们的存算一体系统原型,掀起了学术界和产业界的一股“存算一体”热潮。

最近这几年,随着 AI 浪潮的到来,海量的大模型训练和推理计算需求爆发,引发了算力产业的新一轮增长。存算一体,更是进入了一个高速发展的快车道。

除了传统芯片巨头在加紧研究之外,也有很多创业企业“扎堆”入场。国内有苹芯科技、后摩智能、知存科技、亿铸科技、智芯科、千芯科技、九天睿芯等。国外有 Mythic、Syntiant 等公司。

2023 年 9 月,清华大学团队宣布研发出全球首颗全系统集成的、支持高效片上学习的忆阻器存算一体芯片,再次将“存算一体”推上热搜。

如今,存算一体已经成为业界最热门的研究方向,正在加速从理论研究走向产业落地。

█ 存算一体的技术路线

接下来,我们看看存算一体的具体技术分类。

目前,业界根据存储和计算的距离远近,将存算一体分为三类,分别是近存计算、存内处理和存内计算。

近存计算(Processing Near Memory,PNM)

近存计算,通过芯片封装和板卡组装等方式,将存储单元和计算单元集成,增加访存带宽、减少数据搬移,提升整体计算效率。

前面提到的 HBM 共封装,就是近存计算。

近存计算又分为存储上移和计算下移。HBM 那个,属于存储上移。计算下移是采用板卡集成技术,将数据处理能力卸载到存储器,典型方案是 CSD 可计算存储。

近存计算严格来说仍然是属于存算分离架构。这个路线比较容易实现,现在已经广泛应用于 AI、大数据、边缘计算、物联网等场景。

存内处理(Processing In Memory,PlM)

存内处理,是在芯片制造的过程中,将“存”与“算”集成在同一个晶粒(Die)中,使存储器本身具备了一定的算力。

存内处理本质上仍是存算分离。相比于近存计算,“存”与“算”距离更近。

目前,业内的存内处理方案大多在内存(DRAM)芯片中加“算力”,比较典型的产品形态为 HBM-PIM(三星)和 PIM-DIMM。这类方案适合应用于语音识别、数据库索引搜索、基因匹配等场景。

存内计算(Computing in Memory,ClM)

存内计算,这是真正的存算一体了(也属于业界所说的狭义的存算一体)。

在芯片设计的过程中,不再区分存储单元和计算单元,直接消除“存”“算”界限,真正实现存算彻底融合。

一文看懂“存算一体”

这个方案的主要服务场景就是 AI 计算。

AI 深度学习算法中包含了大量的矩阵乘法运算,其本质是乘累加(Multiply Accumulate, MAC)运算。

存算一体技术可以将这些运算直接映射到存储结构中,在存储单元的核心电路上做修改,从而在读取的同时进行数据输入和计算处理,在存储阵列中完成卷积运算。这带来了极高的能效比和极低的延迟。

一文看懂“存算一体”

存算一体芯片的大致架构

存算一体的存储介质

以前小枣君给大家介绍半导体存储的时候说过,存储器分为易失性存储器和非易失性存储器。

存内计算的电路,也可以基于这两种存储器。

易失性,就是内存那种,掉电了数据就没了,例如 SRAM、DRAM。

非易失性,掉电时数据不会丢失,如传统的闪存 NOR Flash 和 NAND Flash,以及一些新型存储器:阻变存储器 RRAM(ReRAM)、磁性存储器 MRAM、铁变存储器 FRAM(FeRAM)、相变存储器 PCRAM(PCM)等。

SRAM、DRAM、Flash 等都是成熟的技术,基于电荷的移动完成数据存储。

DRAM 成本低,容量大,但是可用的 eDRAM IP 核工艺节点不先进,读取延迟(Latency)也大,且需要定期刷新数据。Flash 则属于非易失性存储器件,具有低成本优势,一般适合小算力场景。SRAM 在速度方面具有极大优势,有几乎最高的能效比,容量密度略小,在精度增强后可以保证较高精度,一般适用于云计算等大算力场景。

目前,针对新型存储器的研究非常热门。例如 RRAM、MRAM 等,基于电阻大小的变化完成数据存储功能。

一文看懂“存算一体”

新型存储器中,忆阻器(RRAM)的研究热度最高。

RRAM 使用电阻调制来实现数据存储,读出电流信号而非传统的电荷信号,可以获得较好的线性电阻特性。但目前 RRAM 工艺良率爬坡还在进行中,而且依然需要面对非易失存储器固有的可靠性问题。

一文看懂“存算一体”

需要说明的是,存内计算主要包含模拟和数字两种实现方式。

模拟存内计算能效高,但误差较大,实现低功耗低位宽的整数乘加计算,适用于低精度、低功耗计算场景,例如端侧可穿戴设备等。模拟存内计算通常使用 FLASH、RRAM、PRAM 等非易失性介质作为存储器件,存储密度大,并行度高,但是对环境噪声和温度非常敏感。

数字存内计算误差低,但单位面积功耗较大,适用于高精度、功耗不敏感的计算场景,例如云端 AI 场景。数字存算一体主要以 SRAM 和 RRAM 作为存储器件,具有高性能、高精度的优势,且具备很好的抗噪声能力和可靠性,

存算一体的应用场景

前面已经说过,存算一体天然适合 AI 相关的计算场景。

自然语言处理、信息检索、图神经网络、智能决策、具身智能等人工智能应用,对算力效率以及系统能耗有极高的要求。传统的“存算分离”难以应对,存算一体则非常适合。

除了 AI 之外,就是 AIoT 智能物联网产品。碎片化的 AIoT 市场对先进工艺芯片的需求并不强烈,反而更关注芯片的成本、功耗、开发难度。

存算一体芯片在这些方面都有优势,非常适合采用。

在一些大算力场景,例如云端 AI 计算,也是存算一体的用武之地。

目前的 AI 计算,基本上都是 GPU 为主。GPU 在算力和能效上都无法同时与专用加速芯片(ASIC)竞争。在云计算算力市场,GPU 的单一架构也已经不能适应不同 AI 计算场景的算法离散化特点。例如在图像、推荐、NLP 领域,都有各自的主流算法架构。

新型的存算一体芯片,具有能效优势,也适合固定场景的计算任务,应用潜力巨大。

此外,存算一体芯片还有一些其他延伸应用,比如感存算一体、类脑计算等。这些也是非常具有潜力的市场领域。

存算一体面临的挑战

存算一体的技术前景非常广阔,但是我们也必须认识到,这项技术的实现和普及还面临着诸多挑战。

首先,是来自技术上的挑战。

存算一体采用新型存储技术,对半导体工艺有更高的要求。在芯片架构、电路设计和材料选择等方面,都仍有待进一步研究和创新。

其次,是来自生态上的挑战。

存算一体技术作为一个新兴领域,其生态系统尚未完全建立。

例如,在芯片设计阶段,由于存算一体芯片区别于常规的芯片设计方案,所以目前市面上没有成熟的专用 EDA 工具辅助设计和仿真验证。芯片流片之后,也没有成熟的工具协助测试。在芯片落地应用阶段,没有专用的软件与之匹配。

为此,需要产业界协作,进一步提高设计工具链的成熟度,实现自动化 EDA 工具与跨平台编译器的支持,加强代工厂标准 IP 库的建设与优化多场景下的制造成本,以便提高产业链的整体协同能力。

最后,是来自市场上的挑战。

虽然存算一体技术具有广阔的市场前景,但目前市场上仍存在诸多不确定因素。存算一体芯片的架构场景通用性及规模扩展能力较差。传统存算分离架构仍占据主导地位,存算一体技术需要与传统架构进行竞争。

存内计算仅适合原本就对存储需求较大的场景,而对于本身存储需求并不高的场景,为了引入内存计算而加上一块大内存反倒会增加成本适得其反。

用户对性价比非常关注,需要考虑用户的需求和场景是否能够接受存算一体。存算一体,也要在 AI 的发展过程中寻找自己的落地场景。

总之,挑战还是很多的。但是,随着技术的不断进步以及业界的不懈努力,相信这些问题都会得到逐步解决。

最后的话

根据 QYResearch 调研团队报告《全球存算一体技术市场报告 2023-2029》显示,预计 2029 年全球存算一体技术市场规模将达到 306.3 亿美元,未来几年年复合增长率 CAGR 为 154.7%。

这是一个非常具有潜力的市场。未来几年,存算一体领域还会有更多的技术创新出现,涌现出更多优秀的企业。让我们拭目以待!

参考文献:

1、《存算一体:内核架构创新,打破算力能效极限》,势乘资本和光锥智能;

2、《存算一体白皮书(2022 年)》,中国移动研究院;

3、《ChatGPT:存算一体,算力的下一极》,华西证券;

4、《消除冯・诺依曼计算架构瓶颈,存算一体未来几何?》,松禾资本。

本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君

以上就是一文看懂“存算一体”的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/59449.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
抖音直播一个人可以认证几个号?抖音直播可以一个人实名2个吗
上一篇 2025年11月10日 14:30:21
番茄ToDo忘记登录密码怎么办_番茄ToDo密码找回与重置步骤
下一篇 2025年11月10日 14:32:23

相关推荐

  • composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

    require用于声明项目运行必需的依赖,如框架、数据库组件和第三方SDK,这些包会随项目部署到生产环境;2. require-dev用于声明仅在开发和测试阶段需要的工具,如PHPUnit、PHPStan、Faker等,不会默认部署到生产环境;3. 安装时composer install根据环境决定…

    2026年5月10日
    1000
  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 利用海象运算符简化条件赋值:Python教程与最佳实践

    本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…

    2026年5月10日
    100
  • Debian syslog性能优化技巧有哪些

    提升Debian系统syslog (通常基于rsyslog)性能,关键在于精简配置和高效处理日志。以下策略能有效优化日志管理,提升系统整体性能: 精简配置,高效加载: 在rsyslog配置文件中,仅加载必要的输入、输出和解析模块。 使用全局指令设置日志级别和格式,避免不必要的处理。 自定义模板: 创…

    2026年5月10日
    000
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

    SFINAE 是“替换失败不是错误”的原则,指模板实例化时若参数替换导致错误,只要存在其他合法候选,编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景,如通过 decltype 或 enable_if 控制函数重载,实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

    2026年5月10日
    000
  • 如何让动态追加元素的类事件生效?

    如何在追加元素后使其绑定类事件生效 在页面中引入三方 JavaScript 类并通过添加相应 class 来调用事件方法是一种常见的做法。然而,如果通过 JavaScript 追加标签元素,即使添加了对应的 class,事件也可能无法生效。 为了解决这个问题,可以尝试以下步骤: 检查追加的标签是否为…

    2026年5月10日
    000
  • Go语言mgo查询构建:深入理解bson.M与日期范围查询的正确实践

    本文旨在解决go语言mgo库中构建复杂查询时,特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性,解释为何直接索引`interface{}`会导致“invalid operation”错误,并提供一种推荐的、结构清晰的代码重构方案,以确保查询条件能够正确…

    2026年5月10日
    100
  • RichHandler与Rich Progress集成:解决显示冲突的教程

    在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时,可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

    2026年5月10日
    000
  • Golang goroutine与channel调试技巧

    使用go run -race检测数据竞争,结合runtime.NumGoroutine监控协程数量,通过pprof分析阻塞调用栈,利用select超时避免永久阻塞,有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心,但它们也带来了调试上…

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 《魔兽世界》将于6月11日开启国服回归技术测试

    《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试

    《%ign%ignore_a_1%re_a_1%》官方宣布,将于6月11日开启国服回归技术测试,时间为7天,并称可以在6月内正式开服,玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端,技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情 以上就是《…

    2026年5月10日 用户投稿
    200
  • 如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

    HTML表单通过标签构建,包含action和method属性定义数据提交目标与方式,常用input类型如text、password、email等适配不同输入需求,配合label、required、placeholder提升可用性,结合textarea、select、button等控件实现完整交互,是…

    2026年5月10日
    100
  • 网站标题关键词更新后,搜索引擎为何仍显示旧标题?

    网站标题更新后,搜索引擎为何显示旧标题? 网站SEO优化中,站长常修改网站标题关键词,期望搜索结果显示自定义标题。然而,即使更新标签、meta keywords、meta description和结构化数据中的name属性后,搜索结果仍显示旧标题,这令人费解。本文将对此进行解释。 问题:站长修改了网…

    2026年5月10日
    100
  • 创建指定大小并填充特定数据的Golang文件教程

    本文将介绍如何使用Golang创建一个指定大小的文件,并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件,从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件,并将其填充为全零数据。掌握这些方法,可以方便地在例如日志系统或磁盘队列等场景中,预先创建测试文件或初始…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • 如何插入查询结果数据_SQL插入Select查询结果方法

    如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法

    使用INSERT INTO…SELECT语句可高效插入数据,通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复;表结构不一致时可通过别名、类型转换、默认值或计算字段处理;结合存储过程可提升可维护性,支持参数化与动态SQL。 将查询结果数据插入到另一个表中,可以…

    2026年5月10日 用户投稿
    000
  • 使用 WebCodecs VideoDecoder 实现精确逐帧回退

    本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时,实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳,可以避免渲染中间帧,从而提高用户体验。本文将提供详细的解决方案和示例代码,帮助开发者实现精确的视频帧控制。 在使用 WebCodecs VideoDecod…

    2026年5月10日
    000
  • Discord.py 交互按钮超时与持久化解决方案

    本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图(View)的超时机制,并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案,确保您的机器人交互功能稳定可靠,即…

    2026年5月10日
    000
  • Debian Copilot的社区活跃度如何

    debian copilot是codeberg社区维护的ai助手,旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据,但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况: Debian拥有详尽的…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信