IBM 的 AI 加速器:这最好不仅仅是一个科学项目

IBM 的 AI 加速器:这最好不仅仅是一个科学项目


蓝巨人是早期发现加速器漏洞的系统设计者之一,并相当强调地宣称,从长远来看,各种高性能计算都会有某种加速。 意思是,某种专用的 ASIC,CPU 可以将其数学作业卸载到该 ASIC。

也许,IBM 正在从 15 年前的早期 HPC 时代重新吸取一些经验教训,当时它创建了 PowerXCell 矢量数学加速器,并将其用于洛斯阿拉莫斯国家实验室的 petaflops 破坏“Roadrunner”超级计算机,并且正在应用这些经验教训进入现代人工智能时代。

人们可以希望,至少,只是为了让 AI 领域的事情变得有趣,该公司至少在某种 HPC(AI 培训肯定是)方面认真对待自己,因为它的 IBM 研究部门似乎正在使用它推出了新的人工智能加速单元。

IBM Research 的 AIU 背后的很多细节都没有被泄露,到目前为止,所有人唯一知道的是 IBM 的向量和矩阵数学单元(绝对不是计算懒散)的历史,以及它们对混合精度的使用和一篇博文说起AIU特意去。

IBM Research 透露的 AIU 设备将基于 5 纳米工艺,并且可能由三星制造,三星是 IBM 的合作伙伴,为企业服务器提供 7 纳米“Cirrus”Power10 处理器,以及用于企业服务器的“Telum”System z16 处理器。它的大型机。 Power10 芯片具有非常强大的矢量和矩阵数学单元,是 IBM 几十年来一直使用的设计的演变,但 Telum 芯片使用第三代 IBM Research 的 AI Core 混合精度矩阵数学单元作为片上 AI 推理和低精度 AI 训练加速器。

最初的 AI Core 芯片于 2018 年发布,能够进行 FP16 半精度数学和 FP32 单精度累加,有助于 IBM 为神经网络带来更低精度的数据和处理。 在为 Telum z16 处理器创建 AI 加速器(我们在 2021 年 8 月在这里详细介绍过)之后,IBM Research 将此 AI 加速器作为基本构建块,并在单个设备上对其进行了扩展。

在进入新的 AIU 之前,让我们回顾一下 Telum 芯片上的 AI 加速器。

在 z16 芯片上,AI 加速器由 128 个处理器块组成,可能以 4 x 4 x 8 尺寸的 2D 环面配置排列,但 IBM 对此并不清楚。 该脉动阵列支持 FP32 乘累加浮点单元上的 FP16 矩阵数学(及其混合精度变体)。 这是为了支持矩阵数学和机器学习的卷积而明确设计的——不仅包括推理,还包括低精度训练,IBM 预计这可能会在企业平台上发生。 我们认为它可能还支持用于 AI 训练和推理的 FP8 四分之一精度格式以及用于 AI 推理的 INT2 和 INT4,我们在 IBM Research 于 2021 年 1 月发布的这款用于嵌入式和移动设备的实验性四核 AI Core 芯片中看到了这种格式。 Telum CPU 中的 AI 加速器还具有 32 个复杂功能 (CF) 块,支持 FP16 和 FP32 SIMD 指令,并针对激活功能和复杂操作进行了优化。 支持的特殊功能列表包括:

  • LSTM 激活
  • GRU 激活
  • 融合矩阵乘法,偏置运算
  • 融合矩阵乘法(带广播)
  • 批量标准化
  • 融合卷积、偏置添加、Relu
  • 最大池 2D
  • 平均池 2D
  • 软最大
  • 热路
  • 乙状结肠
  • 添加
  • 减去
  • 划分
  • 最大限度
  • 日志

一个预取器和回写单元连接到 z16 内核和 L2 高速缓存环互连,还链接到一个暂存器,该暂存器又通过数据移动器和格式化单元链接到 AI 内核,顾名思义,它可以格式化数据,以便它可以通过矩阵数学单元运行以进行推理并产生结果。 预取器可以以超过 120 GB/秒的速度从暂存器中读取数据,并且可以以超过 80 GB/秒的速度将数据存储到暂存器中; 数据移动器可以以 600 GB/秒的速度将数据拉入并从 AI 单元中的 PT 和 CF 核心推送数据。

在 System z16 Iron 上,IBM 自己的 Snap ML 框架和 Microsoft Azure 的 ONNX 框架在生产中得到支持,而谷歌的 TensorFlow 框架在两个月前刚刚进入公测。

现在,假设您将 AI 加速器从 Telum 芯片上复制并粘贴到设计中 34 次,如下所示:

这 34 个内核及其用于暂存器存储器的非内核区域以及将内核相互连接以及与外部系统相连的区域总共有 230 亿个晶体管。 (IBM 说 AIU 上有 32 个内核,但您可以清楚地看到 34 个,因此我们认为其中两个是为了提高具有 32 个可用内核的设备的芯片良率。)

Telum z16 处理器的重量为 5 GHz,但 AIU 不太可能以接近该速度的速度运行。

如果你看一下 AIU 芯片,它有 16 个某种类型的 I/O 控制器,它们可能是可用于内存或 I/O 的通用 SerDes(正如 IBM 在其用于 I/O 和内存的 OpenCAPI 接口中所做的那样) Power10 芯片)。 包装上似乎还有八组来自三星的 LPDDR5 内存,总内存为 48 GB,总带宽约为 43 GB/秒。 如果这些都是内存控制器,那么内存可以翻倍,达到 96 GB/秒和 86 GB/秒的总带宽。

AIU 芯片顶部的控制器复合体可能是 PCI-Express 4.0 控制器,但希望它是支持内置 CXL 协议的 PCI-Express 5.0 控制器。

IBM 没有透露 AIU 的性能表现如何,但我们可以做出一些猜测。 早在 2021 年 1 月,四核 AI Core 芯片就在 ISSCC 芯片大会上首次亮相,由三星以 7 纳米工艺蚀刻而成,在 1.6 GHz 下提供了 25.6 teraflops 的 FP8 训练和 102.4 teraop 的 INT4 推理。 该测试芯片的运行功率为 48.6 瓦,并具有 8 MB 的片上缓存。

这个 AIU 有 34 个内核,其中 32 个处于活动状态,因此假设时钟速度保持不变(无论是什么),它的性能应该是 8 倍,片上缓存是 8 倍。 对于 FP8 中的 AI 训练,这将达到 204.8 teraflops,在具有 64 MB 片上缓存的 AI 推理中达到 819.2 teraops,在 7 纳米中实现时,功率包络线在 400 瓦以南。 但 IBM 正在与三星一起以 5 纳米的方式实现它,这可能使 AIU 设备的功率约为 275 瓦。

相比之下,Nvidia 的“Hopper”GH100 GPU 的 350 瓦 PCI-Express 5.0 版本在 80 GB HBM3 内存和 3.03 petaflops 的 FP8 AI 训练性能上提供 2 TB/秒的带宽,并支持稀疏性。

IBM Research 将需要 AI 内核。 大量的 AI 内核.

注册我们的时事通讯

将本周的亮点、分析和故事直接从我们发送到您的收件箱,中间没有任何内容。
现在订阅

#IBM #的 #加速器这最好不仅仅是一个科学项目

Leave a Reply

Your email address will not be published. Required fields are marked *

债务压力加大,复星撤资近50亿美元 Previous post 债务压力加大,复星撤资近50亿美元
China’s FAST Telescope Discovers Largest Known Atomic Gas Structure Next post 中国FAST望远镜发现已知最大的原子气结构