ZHCACI1 march 2023 AM62A3 , AM62A3-Q1 , AM62A7 , AM62A7-Q1
TI 的处理器采用先进的深度学习加速器设计。TI 在数字信号处理器 (DSP) 领域拥有悠久历史,这些处理器已与 TI 的其他 SoC 日益紧密地集成;但是,只有 DSP 并不足以支持大多数视觉深度学习模型。我们的深度学习加速器紧密耦合了 C7x DSP 和自定义矩阵乘法加速器 (MMA),可大幅提高神经网络 (NN) 的性能,尤其是视觉 AI 中常见的卷积神经网络 (CNN)。
AM62A 的深度学习加速器使用 256 位 C7x DSP,以及能够在单个时钟周期内对 8 位整数值执行 32x32 矩阵乘法的 MMA。当以高达 1GHz 的频率运行时,将提供 2TOPS 的最大计算能力,因为 32x32 矩阵运算是 1024 乘法累加运算(MAC,其中每个 MAC 均视为两次运算)。为了确保 MMA 始终有要计算的值,该架构包含多个流引擎,在每个时钟周期可将 256 位数据从单个输出矩阵移动到两个输入矩阵。MMA 的输出可能通过 C7x 发送,以计算层内的任何非线性函数,具体取决于构成神经网络架构的层。开发人员无需亲自对此进行编程;Arm 内核的 API 调用可降低加速器编程的复杂性,如边缘 AI 软件部分所述。
虽然 TOPS 是量化 TPU、VPU、NPU 和 GPU 等加速器的机器学习性能的通用指标,但一种加速器架构的性能可能优于另一种架构,尽管其理论计算能力较低。TI 的架构旨在使用单个大型计算单元 MMA 来优化功耗和性能,而不是并行使用许多较小的计算单元。如果使用许多小单元,由于相同数据在后续执行周期中的重复使用较少,因此需要更多地传输到存储器。更多的传输意味着更高的功率消耗。专门设计的数据流引擎可使加速器内的 256 位缓冲器始终保留必要的数据。经过良好优化的应用使用的模型,其每层的尺寸可完全填充 MMA。