37000Con威斯人(中国)有限公司-Weixin百科

/ EN
13922884048

资讯中心

information centre
/
/
/

端侧AI为什么需要SRAM存算一体架构?

发布时间:2025-07-28作者来源:37000Con威斯人浏览:613

端侧AI芯片工程师的角度来看,面对带宽、能耗与成本三重挑战,引入SRAM存算一体架构(In-Memory Computing, IMC) 是应对当前大模型端侧部署瓶颈的核心解决方案之一。


一、为什么DRAM主存+传统计算架构难以满足端侧大模型部署?

1. 带宽瓶颈(Memory Wall)

  • DRAM(如LPDDR5/DDR5)的总线带宽在端侧芯片上极为有限(10–50 GB/s),远低于大模型推理所需的数据吞吐量。

  • 以一个70亿参数的FP16模型为例,模型参数约占14GB,若每轮推理都需频繁从DRAM中调入权重,将带来巨大的访问延迟与能耗开销

2. 功耗与能效不足

  • 数据搬移的能耗远高于计算本身:

    • 一次DRAM访问:约100~200 pJ/bit

    • 一次SRAM访问:约1~10 pJ/bit

    • 一次MAC操作:<1 pJ(单精度)

  • 在Transformer这类大模型中,90%以上能耗和延迟都来源于内存访问。

3. 算力利用率低

  • 传统Von Neumann架构中,计算单元(MAC阵列)等待内存数据的时间极长,导致NPU/AI Core利用率远低于理想值(通常 <50%)


二、为什么选择SRAM + 存算一体架构?

1. 本质目标:减少数据搬移,提高能效比

  • 将权重存入SRAM,并在SRAM中进行局部计算,可显著减少DRAM读写与片上总线流量,缓解带宽瓶颈。

  • SRAM的高带宽、低延迟特性,天然适合对参数读取频繁的模型结构(如注意力机制中的QKV矩阵计算)。

2. 实现方式:SRAM阵列+低位宽MAC计算

  • 将部分权重映射到SRAM bitcell结构中,结合周边MAC逻辑实现矩阵向量乘法(MVM)计算。

  • 采用低位宽计算(如INT8甚至Binary),进一步降低功耗。

  • 典型结构如:Processing-in-SRAM,或者更激进的Analog IMC in SRAM(电压、电流作为计算媒介)。


三、SRAM存算一体的优势(工程技术层面)

ffa5c232-d3b9-4bb4-9b11-316fde290723.png



四、工程实践挑战与解决思路

f421c8b4-6f96-4a1a-9296-b9575a22733d.png


五、典型芯片案例(支撑观点)

92691d22-d554-4abe-b423-337856346c92.png


六、总结

SRAM存算一体架构是端侧AI芯片实现“大模型部署”的关键方向。它本质上通过“就地计算”打破传统架构的带宽墙,显著提高能效比和模型推理吞吐,降低功耗和散热压力,同时避免昂贵的DRAM访问带来的BOM成本上升,是应对端侧算力三大矛盾(带宽、功耗、成本)最可行的架构突破。

免责声明:本文采摘自“老虎说芯”,本文仅代表作者个人观点,不代表37000Con威斯人及行业观点,只为转载与分享,支持保护知识产权,转载请注明原出处及作者,如有侵权请联系我们删除。

服务热线

0755-83044319

霍尔元件咨询

肖特基二极管咨询

TVS/ESD咨询

获取产品资料

XML 地图