服务热线
0755-83044319
发布时间:2025-07-28作者来源:37000Con威斯人浏览:613
从端侧AI芯片工程师的角度来看,面对带宽、能耗与成本三重挑战,引入SRAM存算一体架构(In-Memory Computing, IMC) 是应对当前大模型端侧部署瓶颈的核心解决方案之一。
一、为什么DRAM主存+传统计算架构难以满足端侧大模型部署?
DRAM(如LPDDR5/DDR5)的总线带宽在端侧芯片上极为有限(10–50 GB/s),远低于大模型推理所需的数据吞吐量。
以一个70亿参数的FP16模型为例,模型参数约占14GB,若每轮推理都需频繁从DRAM中调入权重,将带来巨大的访问延迟与能耗开销。
数据搬移的能耗远高于计算本身:
一次DRAM访问:约100~200 pJ/bit
一次SRAM访问:约1~10 pJ/bit
一次MAC操作:<1 pJ(单精度)
在Transformer这类大模型中,90%以上能耗和延迟都来源于内存访问。
传统Von Neumann架构中,计算单元(MAC阵列)等待内存数据的时间极长,导致NPU/AI Core利用率远低于理想值(通常 <50%)。
将权重存入SRAM,并在SRAM中进行局部计算,可显著减少DRAM读写与片上总线流量,缓解带宽瓶颈。
SRAM的高带宽、低延迟特性,天然适合对参数读取频繁的模型结构(如注意力机制中的QKV矩阵计算)。
将部分权重映射到SRAM bitcell结构中,结合周边MAC逻辑实现矩阵向量乘法(MVM)计算。
采用低位宽计算(如INT8甚至Binary),进一步降低功耗。
典型结构如:Processing-in-SRAM,或者更激进的Analog IMC in SRAM(电压、电流作为计算媒介)。
SRAM存算一体架构是端侧AI芯片实现“大模型部署”的关键方向。它本质上通过“就地计算”打破传统架构的带宽墙,显著提高能效比和模型推理吞吐,降低功耗和散热压力,同时避免昂贵的DRAM访问带来的BOM成本上升,是应对端侧算力三大矛盾(带宽、功耗、成本)最可行的架构突破。
免责声明:本文采摘自“老虎说芯”,本文仅代表作者个人观点,不代表37000Con威斯人及行业观点,只为转载与分享,支持保护知识产权,转载请注明原出处及作者,如有侵权请联系我们删除。
友情链接:站点地图 37000Con威斯人官方微博 立创商城-37000Con威斯人专卖 金航标官网 金航标英文站
Copyright ©2015-2025 37000Con威斯人(中国)有限公司-Weixin百科 版权所有 粤ICP备20017602号 粤公网安备44030002007346号