IBM 从深度学习中汲取经验

IBM 从深度学习中汲取经验

IBM Research 公布了构建专门用于人工智能 (AI) 的原型芯片的计划。 该芯片被 IBM 命名为人工智能单元 (AIU),标志着 IBM Research AI 硬件中心的第一个完整的芯片系统。

在一篇讨论新芯片的博客中,IBM 研究人员写道:“我们的计算能力即将耗尽。 人工智能模型呈指数级增长,但训练这些庞然大物并在云服务器或智能手机和传感器等边缘设备上运行它们的硬件并没有快速发展。”

IBM 的计划基于 2019 年的研究,旨在降低用于 AI 处理的芯片的复杂性。 研究人员表示,通用计算处理器 (CPU) 的灵活性和高精度使这些芯片非常适合通用软件应用程序,但这种灵活性也使它们在训练和运行深度学习模型时处于劣势,这需要大规模并行 AI 操作。

IBM 采用两种方法来替代传统 CPU。 首先,它表示正在开发一种专用集成电路 (ASIC),与通用计算中使用的 32 位算术相比,它使用的二进制位(精度较低)要少得多。 ASIC 的主要任务涉及矩阵和向量乘法,IBM 称这是 AI 所需的主要计算。

在 2019 年发表的一篇论文中,IBM 研究人员提出了一种方法来简化执行深度学习算法中使用的所谓“点”计算所需的处理。 这种计算涉及将两个浮点数相乘并将结果累加为部分和。

研究人员表示,“降低精度深度学习”所涉及的大部分工作是通过在计算的乘法部分中对数据进行近似来实现的。 但累加部分保留为 32 位。

根据 IBM 的说法,降低计算累积部分的精度是不可能的,因为这样做会导致严重的训练不稳定和模型精度下降。 在论文中,研究人员提出了一种理论方法来实现用于深度神经网络 (DNN) 训练的超低精度硬件。 这是 IBM 用于开发 AIU 硬件的研究领域之一。

在讨论 AIU 的博客文章中,IBM 表示:“AI 芯片不必像 CPU 那样超精确。 我们不是在计算航天器在月球上着陆的轨迹,也不是估计猫身上的毛发数量。 我们所做的预测和决策不需要任何接近这种精细分辨率的东西。”

IBM 表示,通过它使用的称为“近似计算”的技术,它可以从 32 位浮点算术下降到位格式,而位格式的信息量是后者的四分之一。 “这种简化的格式极大地减少了训练和运行 AI 模型所需的数字运算量,而不会牺牲准确性,”IBM 声称。

IBM 研究人员采用的第二种方法是,AIU 芯片的设计方式使电路通过将数据直接从一个计算引擎发送到下一个计算引擎来简化 AI 工作流程。

专为 AI 工作负载设计的专用处理单元并不是什么新鲜事。 Nvidia 和 AMD 等公司已经从其图形处理单元 (GPU) 提供的用于简化机器学习的专用内核中获益。 但是,归根结底,GPU 是围绕着使用高度并行计算架构处理图形所涉及的数学设计的。 但是,它们使用数百甚至数千个内核。 例如,2017 年推出的 210 亿晶体管 Nvidia Titan V 超级计算 GPU 拥有 5,120 个单精度 Cuda 内核。

从理论上讲,ASIC 可以设计为完全专注于优化一种类型的工作负载。 在 IBM 的案例中,这是为 AI 应用程序训练深度学习网络。

麦肯锡在 2017 年底研究 AI 加速以训练 AI 模型时,估计到 2025 年,在数据中心计算中,ASIC 将占工作负载的 50%,到 2025 年 GPU 将占 40%。在边缘,它预测到到 2025 年,ASIC 将用于 70% 的工作负载。

但 ASIC 和 GPU 之间的界限正在模糊。 例如,Nvidia 的 DXG A100 AI 训练引擎在其 GPU 架构中提供了 Tensor 核心。

IBM 在描述 AIU 时表示:“我们完整的片上系统具有 32 个处理内核并包含 230 亿个晶体管——与我们的 z16 芯片中封装的数量大致相同。 IBM AIU 还被设计为像显卡一样易于使用。 它可以插入任何带有 PCIe 插槽的计算机或服务器。”

IBM 将 AIU 定位为“易于插入的 GPU 卡”,表明它希望为基于 GPU 的 AI 加速器提供可行的替代方案。 “到 2029 年,我们的目标是训练和运行 AI 模型的速度比三年前快 1000 倍,”该公司表示。

#IBM #从深度学习中汲取经验

Leave a Reply

Your email address will not be published. Required fields are marked *

美国宇航局的补给任务将科学实验带到空间站——抛物线 Previous post 完成洗碗:从塑料袋到纸袋
Valtteri Bottas 在阿尔法罗密欧的领导角色中蒸蒸日上 Next post Valtteri Bottas 在阿尔法罗密欧的领导角色中蒸蒸日上