绕过GPU与CPU 三星PIM技术重塑AI计算底层架构

tech2026-02-18

绕过GPU与CPU:三星PIM技术重塑AI计算底层架构

ongwu 深度观察
当冯·诺依曼架构的“内存墙”成为AI算力的终极瓶颈,三星正试图用一种颠覆性的方式重新定义计算范式——不是更快地搬运数据,而是让数据“原地计算”。


一、AI时代的算力困境:被数据搬运拖垮的GPU

过去十年,人工智能的爆发式增长建立在GPU的并行计算能力之上。从训练大模型到推理部署,英伟达、AMD等厂商的GPU芯片不断刷新浮点运算峰值。然而,一个被反复忽视的事实是:现代AI计算中,超过60%的能耗和延迟并非来自计算本身,而是源于数据在CPU、GPU与内存之间的频繁搬运

这正是冯·诺依曼架构的固有缺陷——计算单元与存储单元物理分离。以典型的大模型推理任务为例,权重参数动辄数百GB,每次前向传播都需要从DRAM中读取大量数据,再送入GPU进行矩阵乘法。这一过程不仅消耗大量带宽,还受限于内存带宽(Memory Bandwidth)的物理上限。即便使用HBM(高带宽内存),其带宽也难以匹配GPU算力的指数级增长。

更严峻的是,随着模型规模持续膨胀(如GPT-4参数突破万亿级),传统架构的“内存墙”问题愈发尖锐。业界开始意识到:单纯提升GPU算力已无法线性提升AI系统效率,必须从底层架构层面寻求突破。


二、PIM:让存储“动起来”的计算革命

正是在这一背景下,存内计算(Processing-in-Memory, PIM) 技术重新进入主流视野。而三星,正成为这一技术路线的先锋推动者。

PIM的核心思想极为简洁:将计算单元嵌入存储阵列内部,使数据无需离开存储芯片即可完成部分或全部计算操作。这从根本上绕过了传统架构中“数据搬运—计算—写回”的循环,大幅降低延迟与功耗。

三星的PIM技术并非全新概念,但其近期进展标志着该技术从实验室走向量产的关键转折。据官方披露,三星已成功在HBM-PIM(High Bandwidth Memory with PIM)芯片中集成可编程计算单元,支持对存储阵列中的数据进行原位矩阵运算——这正是AI负载中最耗时的操作之一。

“PIM不是替代GPU,而是重构AI计算的‘最后一公里’。”
——三星半导体研究院技术白皮书,2023

与传统GPU依赖外部内存不同,HBM-PIM将计算逻辑直接嵌入DRAM bank之间。当AI任务需要执行GEMM(通用矩阵乘法)时,数据无需从HBM传输至GPU核心,而是在存储层级内部完成部分乘积累加(MAC)操作。这种“近数据计算”(Near-Data Computing)模式,使得数据移动距离缩短至微米级,能耗降低可达50%以上。


三、绕过CPU与GPU?PIM的真实角色解析

headlines 中“绕过CPU与GPU”的表述虽具冲击力,但需谨慎解读。PIM并非要完全取代CPU或GPU,而是重构AI计算栈中的任务分配机制

在实际系统中,PIM芯片通常作为协处理器与主GPU协同工作。例如,在Transformer模型的注意力机制中,QKV(Query-Key-Value)矩阵的生成与softmax计算可由GPU完成,而大规模权重矩阵的加载与部分前向传播则可交由PIM处理。这种异构分工使得系统整体效率显著提升。

更重要的是,PIM对CPU的“绕过”体现在减少主机侧的数据调度负担。传统架构中,CPU需频繁管理数据在主机内存、GPU显存与存储设备间的流动;而PIM允许部分计算直接在存储端完成,从而释放CPU资源用于更高层的任务调度与I/O管理。

三星的PIM方案还引入了可编程性——其内置的计算单元支持多种数据精度(FP16、INT8等)和算子类型,可适配不同AI模型需求。这意味着PIM并非固定功能的加速器,而是一个灵活的“存储-计算融合体”。


四、量产在即:三星的PIM商业化路径

2023年底,三星宣布其HBM-PIM芯片已通过主要客户验证,预计2024年下半年进入量产阶段。这一进展之所以关键,在于它解决了PIM技术长期面临的三大挑战:

  1. 工艺兼容性:三星采用其成熟的1α nm DRAM工艺集成PIM逻辑,确保良率与成本可控;
  2. 生态系统支持:与主流AI框架(如TensorFlow、PyTorch)合作开发PIM-aware编译器,实现自动任务切分;
  3. 标准化接口:遵循JEDEC HBM3标准,确保与现有GPU和服务器平台的兼容性。

首批应用场景将聚焦于数据中心AI推理边缘AI服务器。例如,在推荐系统中,用户特征向量与商品嵌入矩阵的匹配计算可完全在PIM中完成,响应时间缩短30%以上。而在自动驾驶领域,PIM的低延迟特性有助于实现实时感知决策。

值得注意的是,三星并未将PIM局限于HBM。其正在研发基于DDR5和LPDDR5的PIM变体,以覆盖从云端到移动端的广泛场景。这预示着PIM可能成为未来存储芯片的标配功能。


五、挑战与争议:PIM并非万能解药

尽管前景广阔,PIM技术仍面临诸多质疑:

  • 编程模型复杂性:开发者需重新思考数据布局与任务划分,现有CUDA生态难以直接迁移;
  • 通用性局限:PIM擅长规则数据并行任务(如矩阵运算),但对不规则计算(如图神经网络)支持有限;
  • 热管理难题:在DRAM中集成计算单元可能加剧局部发热,影响稳定性;
  • 成本溢价:初期PIM芯片价格高于传统存储,需通过系统级能效优势证明ROI。

此外,学术界对“完全绕过GPU”持保留态度。MIT研究人员指出:“PIM更适合特定子任务加速,而复杂控制流和条件分支仍需传统处理器。” 换言之,未来AI系统将是CPU、GPU、PIM等多架构协同的异构体,而非单一技术的胜利。


六、深远影响:从芯片到架构的范式转移

三星PIM的量产,标志着AI计算正从“以计算为中心”向“以数据为中心”演进。这一转变将引发连锁反应:

  • 服务器架构重构:内存密集型AI服务器可能采用“PIM+HBM+GPU”的三层存储计算堆栈;
  • 软件栈革新:操作系统与运行时需支持PIM资源调度,类似GPU的CUDA生态将逐步成型;
  • 能效标准重塑:AI系统的评估指标将从“TOPS”转向“TOPS/W”(每瓦特算力),推动绿色计算发展。

更宏观地看,PIM代表了后摩尔时代的一条关键路径——通过架构创新弥补工艺微缩的放缓。当晶体管密度提升遭遇物理极限,计算与存储的融合将成为释放AI潜力的核心杠杆。


结语:一场静悄悄的底层革命

三星PIM技术的崛起,或许不会像ChatGPT那样引发公众热议,但它正在悄然改写AI计算的底层规则。它提醒我们:真正的创新往往不在聚光灯下,而在那些被忽视的“数据搬运”细节之中

GPU厂商仍在追逐更高的TFLOPS时,三星选择了一条更艰难但更具颠覆性的道路——让存储不再只是“仓库”,而是成为计算的“前线战场”。这场围绕内存墙的突围战,才刚刚开始。

ongwu 结语
计算的未来,不在于搬运多少数据,而在于让数据在哪里被计算。三星PIM,正是这一理念的先行者。