一文看懂“存算一体”

今天这篇文章,我们来聊一个最近几年很火的概念 —— 存算一体

█ 为什么会提出“存算一体”?

存算一体,英文叫 Compute In Memory,简称 CIM。顾名思义,就是将存储和计算放在一起。

大家都知道,存储和计算,是我们处理数据的两种基本方式。自从计算机诞生以来,我们采用的主流计算架构,是著名的冯・诺伊曼架构。在这个架构中,存储和计算是两个相对独立的模块。存储负责数据的存取,而计算则负责运算。

一文看懂“存算一体”

冯・诺依曼架构

我们可以把存储理解为配菜,计算理解为炒菜。两者配合到位,才能完成菜品的制作(完成计算任务)。

理论上来说,想要出菜的速度更快,一方面,要加快炒菜的速度(通过提升芯片的算力,例如采用更先进的工艺制程),另一方面,也要加快配菜的速度。

这个速度,简单来说,就是存储设备与计算芯片(CPU、GPU 等)之间的数据传输能力。如果配菜太慢,炒菜师傅就要等待,从而影响整体效率。

以前小枣君给大家介绍存储的时候曾经说过,计算机的存储,是典型的分级策略 —— 越靠近处理器(计算单元)的存储设备,速度越快,容量越小。有缓存(1 级 / 2 级 / 3 级)、内存、磁盘(固态 / 机械)、外部存储器(本地磁阵、云存储)这样的不同类型存储设备(单元)。

一文看懂“存算一体”

这是由存储设备的成本决定的。速度越快的存储设备,成本越高。全部都用最快的存储,是不现实的,价格太高昂,所以才有了逐级存储机制。

冯・诺依曼架构,我们用了几十年,因为数据存储和计算是明显分开的,所以也叫做存算分离

进入互联网时代后,由于数据量呈现爆炸式增长,对数据计算效率的要求越来越高。这种传统的架构开始暴露出能力上的缺陷。

尤其是最近这些年,AI 的崛起,让数据计算强度又跃升了好几个层级。计算芯片在疯狂提速,而存储传输速率的提升跟不上,由此产生了著名的两堵墙 ——“存储墙”“功耗墙”

所谓“存储墙”,是指存储设备和处理器之间的数据传输速度,远远跟不上处理器的计算速度。就像炒菜师傅手艺再好,配菜师傅跟不上节奏,也只能干着急。

一文看懂“存算一体”

业内曾提出,AI 运算需要的存算通道速率是 1PB/s。SRAM 的 10-100TB/s、DRAM 的 40GB-1TB/s,都远达不到要求。

而“功耗墙”则是指,在数据传输过程中,能耗巨大,导致整体系统的能效比不理想。这就像是为了快速配菜,不得不请很多帮手,结果人工成本大大增加。

例如,在 7nm 工艺下,数据搬运的功耗占比甚至达到了惊人的 63.7%,远远大于数据计算的功耗。

大家应该都听说过 HBM 技术

HBM(High Bandwidth Memory,高带宽内存),就是一种尝试解决“存储墙”和“功耗墙”问题的新型存储技术。像英伟达这样的芯片厂商,采用 3D 封装等先进工艺,将存储单元和计算单元封装在一起,通过缩短两者之间的距离,提高数据传输速度,同时降低能耗。

一文看懂“存算一体”

HBM 在一定程度上缓解了问题,但并没有从根本上改变存算分离的现状。于是,业界提出了一个新的解决思路,那就是 —— 存算一体

既然存储和计算分离会导致带宽瓶颈,那么,把存储和计算直接结合在一起,让数据在存储的过程中就能进行计算,或者在计算的过程中就能直接访问存储,从而减少数据的搬运次数,不就行了吗?

这样一来,既可以提高整体计算效率,也可以降低功耗,彻底解决“两堵墙”的问题。

实际上,我们的大脑,就是典型的存算一体结构。神经元既负责存储信息(记忆),也负责处理信息(思考)。这种结构,使得大脑能够以极高的效率处理复杂的任务,而且能耗极低。

存算一体的发展历程

存算一体的研究,其实很早就已经开始了。

早在 1969 年,斯坦福研究所的 Kautz 等人,率先提出了存算一体计算机的概念。但是,受限于当时的技术和工艺,概念仅仅停留在理论研究阶段,并未得到实际应用。

后来,为了实现存算一体,科学家们进行了大量的研究和尝试,但仍然进展缓慢。

进入 21 世纪后,芯片与半导体技术日趋成熟,存算一体化实现的曙光亦逐渐显现。科学家们发现,某些特殊的材料或器件,能够在存储数据的同时,在存储单元内部执行简单的逻辑运算。这将大大减少数据的搬运次数和功耗。

2010 年,惠普实验室的 Williams 教授团队提出并验证利用忆阻器实现简单布尔逻辑功能(联合、相交、相减等)。

2016 年,美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队,提出使用阻变存储器(RRAM)构建存算一体架构的深度学习神经网络(PRIME)。相较于传统冯・诺伊曼架构方案,PRIME 可以实现功耗降低约 20 倍、速度提升约 50 倍。

2017 年,在微处理器顶级年会(Micro 2017)上,包括英伟达、英特尔、微软、三星、苏黎世联邦理工学院与加州大学圣塔芭芭拉分校等都推出了他们的存算一体系统原型,掀起了学术界和产业界的一股“存算一体”热潮。

最近这几年,随着 AI 浪潮的到来,海量的大模型训练和推理计算需求爆发,引发了算力产业的新一轮增长。存算一体,更是进入了一个高速发展的快车道。

除了传统芯片巨头在加紧研究之外,也有很多创业企业“扎堆”入场。国内有苹芯科技、后摩智能、知存科技、亿铸科技、智芯科、千芯科技、九天睿芯等。国外有 Mythic、Syntiant 等公司。

2023 年 9 月,清华大学团队宣布研发出全球首颗全系统集成的、支持高效片上学习的忆阻器存算一体芯片,再次将“存算一体”推上热搜。

如今,存算一体已经成为业界最热门的研究方向,正在加速从理论研究走向产业落地。

█ 存算一体的技术路线

接下来,我们看看存算一体的具体技术分类。

目前,业界根据存储和计算的距离远近,将存算一体分为三类,分别是近存计算、存内处理和存内计算。

近存计算(Processing Near Memory,PNM)

近存计算,通过芯片封装和板卡组装等方式,将存储单元和计算单元集成,增加访存带宽、减少数据搬移,提升整体计算效率。

前面提到的 HBM 共封装,就是近存计算。

近存计算又分为存储上移和计算下移。HBM 那个,属于存储上移。计算下移是采用板卡集成技术,将数据处理能力卸载到存储器,典型方案是 CSD 可计算存储。

近存计算严格来说仍然是属于存算分离架构。这个路线比较容易实现,现在已经广泛应用于 AI、大数据、边缘计算、物联网等场景。

存内处理(Processing In Memory,PlM)

存内处理,是在芯片制造的过程中,将“存”与“算”集成在同一个晶粒(Die)中,使存储器本身具备了一定的算力。

存内处理本质上仍是存算分离。相比于近存计算,“存”与“算”距离更近。

目前,业内的存内处理方案大多在内存(DRAM)芯片中加“算力”,比较典型的产品形态为 HBM-PIM(三星)和 PIM-DIMM。这类方案适合应用于语音识别、数据库索引搜索、基因匹配等场景。

存内计算(Computing in Memory,ClM)

存内计算,这是真正的存算一体了(也属于业界所说的狭义的存算一体)。

在芯片设计的过程中,不再区分存储单元和计算单元,直接消除“存”“算”界限,真正实现存算彻底融合。

一文看懂“存算一体”

这个方案的主要服务场景就是 AI 计算。

AI 深度学习算法中包含了大量的矩阵乘法运算,其本质是乘累加(Multiply Accumulate, MAC)运算。

存算一体技术可以将这些运算直接映射到存储结构中,在存储单元的核心电路上做修改,从而在读取的同时进行数据输入和计算处理,在存储阵列中完成卷积运算。这带来了极高的能效比和极低的延迟。

一文看懂“存算一体”

存算一体芯片的大致架构

存算一体的存储介质

以前小枣君给大家介绍半导体存储的时候说过,存储器分为易失性存储器和非易失性存储器。

存内计算的电路,也可以基于这两种存储器。

易失性,就是内存那种,掉电了数据就没了,例如 SRAM、DRAM。

非易失性,掉电时数据不会丢失,如传统的闪存 NOR Flash 和 NAND Flash,以及一些新型存储器:阻变存储器 RRAM(ReRAM)、磁性存储器 MRAM、铁变存储器 FRAM(FeRAM)、相变存储器 PCRAM(PCM)等。

SRAM、DRAM、Flash 等都是成熟的技术,基于电荷的移动完成数据存储。

DRAM 成本低,容量大,但是可用的 eDRAM IP 核工艺节点不先进,读取延迟(Latency)也大,且需要定期刷新数据。Flash 则属于非易失性存储器件,具有低成本优势,一般适合小算力场景。SRAM 在速度方面具有极大优势,有几乎最高的能效比,容量密度略小,在精度增强后可以保证较高精度,一般适用于云计算等大算力场景。

目前,针对新型存储器的研究非常热门。例如 RRAM、MRAM 等,基于电阻大小的变化完成数据存储功能。

一文看懂“存算一体”

新型存储器中,忆阻器(RRAM)的研究热度最高。

RRAM 使用电阻调制来实现数据存储,读出电流信号而非传统的电荷信号,可以获得较好的线性电阻特性。但目前 RRAM 工艺良率爬坡还在进行中,而且依然需要面对非易失存储器固有的可靠性问题。

一文看懂“存算一体”

需要说明的是,存内计算主要包含模拟和数字两种实现方式。

模拟存内计算能效高,但误差较大,实现低功耗低位宽的整数乘加计算,适用于低精度、低功耗计算场景,例如端侧可穿戴设备等。模拟存内计算通常使用 FLASH、RRAM、PRAM 等非易失性介质作为存储器件,存储密度大,并行度高,但是对环境噪声和温度非常敏感。

数字存内计算误差低,但单位面积功耗较大,适用于高精度、功耗不敏感的计算场景,例如云端 AI 场景。数字存算一体主要以 SRAM 和 RRAM 作为存储器件,具有高性能、高精度的优势,且具备很好的抗噪声能力和可靠性,

存算一体的应用场景

前面已经说过,存算一体天然适合 AI 相关的计算场景。

自然语言处理、信息检索、图神经网络、智能决策、具身智能等人工智能应用,对算力效率以及系统能耗有极高的要求。传统的“存算分离”难以应对,存算一体则非常适合。

除了 AI 之外,就是 AIoT 智能物联网产品。碎片化的 AIoT 市场对先进工艺芯片的需求并不强烈,反而更关注芯片的成本、功耗、开发难度。

存算一体芯片在这些方面都有优势,非常适合采用。

在一些大算力场景,例如云端 AI 计算,也是存算一体的用武之地。

目前的 AI 计算,基本上都是 GPU 为主。GPU 在算力和能效上都无法同时与专用加速芯片(ASIC)竞争。在云计算算力市场,GPU 的单一架构也已经不能适应不同 AI 计算场景的算法离散化特点。例如在图像、推荐、NLP 领域,都有各自的主流算法架构。

新型的存算一体芯片,具有能效优势,也适合固定场景的计算任务,应用潜力巨大。

此外,存算一体芯片还有一些其他延伸应用,比如感存算一体、类脑计算等。这些也是非常具有潜力的市场领域。

存算一体面临的挑战

存算一体的技术前景非常广阔,但是我们也必须认识到,这项技术的实现和普及还面临着诸多挑战。

首先,是来自技术上的挑战。

存算一体采用新型存储技术,对半导体工艺有更高的要求。在芯片架构、电路设计和材料选择等方面,都仍有待进一步研究和创新。

其次,是来自生态上的挑战。

存算一体技术作为一个新兴领域,其生态系统尚未完全建立。

例如,在芯片设计阶段,由于存算一体芯片区别于常规的芯片设计方案,所以目前市面上没有成熟的专用 EDA 工具辅助设计和仿真验证。芯片流片之后,也没有成熟的工具协助测试。在芯片落地应用阶段,没有专用的软件与之匹配。

为此,需要产业界协作,进一步提高设计工具链的成熟度,实现自动化 EDA 工具与跨平台编译器的支持,加强代工厂标准 IP 库的建设与优化多场景下的制造成本,以便提高产业链的整体协同能力。

最后,是来自市场上的挑战。

虽然存算一体技术具有广阔的市场前景,但目前市场上仍存在诸多不确定因素。存算一体芯片的架构场景通用性及规模扩展能力较差。传统存算分离架构仍占据主导地位,存算一体技术需要与传统架构进行竞争。

存内计算仅适合原本就对存储需求较大的场景,而对于本身存储需求并不高的场景,为了引入内存计算而加上一块大内存反倒会增加成本适得其反。

用户对性价比非常关注,需要考虑用户的需求和场景是否能够接受存算一体。存算一体,也要在 AI 的发展过程中寻找自己的落地场景。

总之,挑战还是很多的。但是,随着技术的不断进步以及业界的不懈努力,相信这些问题都会得到逐步解决。

最后的话

根据 QYResearch 调研团队报告《全球存算一体技术市场报告 2023-2029》显示,预计 2029 年全球存算一体技术市场规模将达到 306.3 亿美元,未来几年年复合增长率 CAGR 为 154.7%。

这是一个非常具有潜力的市场。未来几年,存算一体领域还会有更多的技术创新出现,涌现出更多优秀的企业。让我们拭目以待!

参考文献:

1、《存算一体:内核架构创新,打破算力能效极限》,势乘资本和光锥智能;

2、《存算一体白皮书(2022 年)》,中国移动研究院;

3、《ChatGPT:存算一体,算力的下一极》,华西证券;

4、《消除冯・诺依曼计算架构瓶颈,存算一体未来几何?》,松禾资本。

本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君

以上就是一文看懂“存算一体”的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/59449.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月10日 14:29:04
下一篇 2025年11月10日 14:42:33

相关推荐

  • Uniapp 中如何不拉伸不裁剪地展示图片?

    灵活展示图片:如何不拉伸不裁剪 在界面设计中,常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。 对于不同尺寸的图片,可以采用以下处理方式: 极端宽高比:撑满屏幕宽度或高度,再等比缩放居中。非极端宽高比:居中显示,若能撑满则撑满。 然而,如果需要不拉伸不…

    2025年12月24日
    400
  • 如何让小说网站控制台显示乱码,同时网页内容正常显示?

    如何在不影响用户界面的情况下实现控制台乱码? 当在小说网站上下载小说时,大家可能会遇到一个问题:网站上的文本在网页内正常显示,但是在控制台中却是乱码。如何实现此类操作,从而在不影响用户界面(UI)的情况下保持控制台乱码呢? 答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体,并通过在客户端…

    2025年12月24日
    800
  • SASS 中的 Mixins

    mixin 是 css 预处理器提供的工具,虽然它们不是可以被理解的函数,但它们的主要用途是重用代码。 不止一次,我们需要创建多个类来执行相同的操作,但更改单个值,例如字体大小的多个类。 .fs-10 { font-size: 10px;}.fs-20 { font-size: 20px;}.fs-…

    2025年12月24日
    000
  • 如何在地图上轻松创建气泡信息框?

    地图上气泡信息框的巧妙生成 地图上气泡信息框是一种常用的交互功能,它简便易用,能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。 利用地图库的原生功能 大多数地图库,如高德地图,都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现: 高德地图 JS API 参考文…

    2025年12月24日
    400
  • 如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画?

    如何实现元素scrollleft变化时的平滑动画效果? 在许多网页应用中,滚动容器的水平滚动条(scrollleft)需要频繁使用。为了让滚动动作更加自然,你希望给scrollleft的变化添加动画效果。 解决方案:scroll-behavior 属性 要实现scrollleft变化时的平滑动画效果…

    2025年12月24日
    000
  • 如何为滚动元素添加平滑过渡,使滚动条滑动时更自然流畅?

    给滚动元素平滑过渡 如何在滚动条属性(scrollleft)发生改变时为元素添加平滑的过渡效果? 解决方案:scroll-behavior 属性 为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码: click the button to slide right!…

    2025年12月24日
    500
  • 如何选择元素个数不固定的指定类名子元素?

    灵活选择元素个数不固定的指定类名子元素 在网页布局中,有时需要选择特定类名的子元素,但这些元素的数量并不固定。例如,下面这段 html 代码中,activebar 和 item 元素的数量均不固定: *n *n 如果需要选择第一个 item元素,可以使用 css 选择器 :nth-child()。该…

    2025年12月24日
    200
  • 使用 SVG 如何实现自定义宽度、间距和半径的虚线边框?

    使用 svg 实现自定义虚线边框 如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片,但是这种方法存在引入外部资源、性能低下的缺点。 为了避免上述问题,可以使用 svg(可缩放矢量图形)来创建纯代码实现。一种方…

    2025年12月24日
    100
  • 如何用 CSS 实现微信输入法进度条按钮效果?

    如何在 css 中呈现微信输入法的进度条按钮效果? 问题:微信输入法中的进度条按钮具有独特的外观。如何使用 css 来实现这种效果? 答案:要实现微信输入法的进度条按钮效果,可以使用以下 css 属性的组合: linear-gradient:创建渐变效果。background-position:控制…

    2025年12月24日
    300
  • 微信小程序文本省略后如何避免背景色溢出?

    去掉单行文本溢出多余背景色 在编写微信小程序时,如果希望文本超出宽度后省略显示并在末尾显示省略号,但同时还需要文本带有背景色,可能会遇到如下问题:文本末尾出现多余的背景色块。这是因为文本本身超出部分被省略并用省略号代替,但其背景色依然存在。 要解决这个问题,可以采用以下方法: 给 text 元素添加…

    2025年12月24日
    000
  • 如何让“元素跟随文本高度,而不是撑高父容器?

    如何让 元素跟随文本高度,而不是撑高父容器 在页面布局中,经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中,父容器被较高的图片撑开,而文本的高度没有被考虑。本问答将提供纯css解决方案,让图片跟随文本高度,确保父容器的高度不会被图片影响。 解决方法 为了解决这个问题,需要将图片从文档流中脱离…

    2025年12月24日
    000
  • 为什么 CSS mask 属性未请求指定图片?

    解决 css mask 属性未请求图片的问题 在使用 css mask 属性时,指定了图片地址,但网络面板显示未请求获取该图片,这可能是由于浏览器兼容性问题造成的。 问题 如下代码所示: 立即学习“前端免费学习笔记(深入)”; icon [data-icon=”cloud”] { –icon-cl…

    2025年12月24日
    200
  • 如何利用 CSS 选中激活标签并影响相邻元素的样式?

    如何利用 css 选中激活标签并影响相邻元素? 为了实现激活标签影响相邻元素的样式需求,可以通过 :has 选择器来实现。以下是如何具体操作: 对于激活标签相邻后的元素,可以在 css 中使用以下代码进行设置: li:has(+li.active) { border-radius: 0 0 10px…

    2025年12月24日
    100
  • 如何模拟Windows 10 设置界面中的鼠标悬浮放大效果?

    win10设置界面的鼠标移动显示周边的样式(探照灯效果)的实现方式 在windows设置界面的鼠标悬浮效果中,光标周围会显示一个放大区域。在前端开发中,可以通过多种方式实现类似的效果。 使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

    2025年12月24日
    200
  • 为什么我的 Safari 自定义样式表在百度页面上失效了?

    为什么在 Safari 中自定义样式表未能正常工作? 在 Safari 的偏好设置中设置自定义样式表后,您对其进行测试却发现效果不同。在您自己的网页中,样式有效,而在百度页面中却失效。 造成这种情况的原因是,第一个访问的项目使用了文件协议,可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

    2025年12月24日
    000
  • 如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果?

    如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果 想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果,可以通过以下途径: CSS 解决方案 DEMO 1: Windows 10 网格悬停效果:https://codepen.io/tr4553r7/pe…

    2025年12月24日
    000
  • 使用CSS mask属性指定图片URL时,为什么浏览器无法加载图片?

    css mask属性未能加载图片的解决方法 使用css mask属性指定图片url时,如示例中所示: mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是,在网络面板中却…

    2025年12月24日
    000
  • 如何用CSS Paint API为网页元素添加时尚的斑马线边框?

    为元素添加时尚的斑马线边框 在网页设计中,有时我们需要添加时尚的边框来提升元素的视觉效果。其中,斑马线边框是一种既醒目又别致的设计元素。 实现斜向斑马线边框 要实现斜向斑马线间隔圆环,我们可以使用css paint api。该api提供了强大的功能,可以让我们在元素上绘制复杂的图形。 立即学习“前端…

    2025年12月24日
    000
  • 图片如何不撑高父容器?

    如何让图片不撑高父容器? 当父容器包含不同高度的子元素时,父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开,避免图片对其产生影响,可以通过以下 css 解决方法: 绝对定位元素: .child-image { position: absolute; top: 0; left: …

    2025年12月24日
    000
  • CSS 帮助

    我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

    2025年12月24日 好文分享
    200

发表回复

登录后才能评论
关注微信