ZHCY189A january 2022 – march 2023 AM67 , AM67A , AM68 , AM68A , AM69 , AM69A , TDA4AEN-Q1 , TDA4AH-Q1 , TDA4AL-Q1 , TDA4AP-Q1 , TDA4APE-Q1 , TDA4VE-Q1 , TDA4VEN-Q1 , TDA4VH-Q1 , TDA4VL-Q1 , TDA4VM , TDA4VM-Q1 , TDA4VP-Q1 , TDA4VPE-Q1
虽然 CPU 和 GPU 适用于其他任务,但它们并不是最适合加速深度学习任务的内核。CPU 的吞吐量有限且功耗高,而 GPU 则是所有内核中功耗最大的,并且内存占用量大。
TI 视觉 AI 处理器集成了一个深度学习加速器,其中包含 ASIC 中的矩阵乘法加速器 (MMA),并固定在可编程 C71 DSP 上。MMA 支持高性能(每个周期可以进行 4K 8 位固定乘法累加)和低功耗传感器加速,而 C71 DSP 负责加速矢量和标量运算并管理 MMA。
由于将 MMA 和 C71 DSP 结合起来,该加速器能够提供非常出色的性能(每秒推理次数)和能效(每瓦推理次数)。C71 内核的编程灵活性可以满足边缘 AI 创新的需求。当不用于深度学习时,该内核能以低功耗处理其他计算密集型任务。
智能存储器架构实现了加速器的高效利用。该加速器配置了内置的存储器子系统,用于数据传输的专用 4D 可编程直接存储器存取 (DMA) 引擎,以及专用的流硬件。这些流硬件可以将数据直接从外部存储器传输到 C71 内核和 MMA 的功能单元,而绕过高速缓存。平铺和超平铺功能可更大限度地减少与外部存储器之间的数据传输。
表 2 显示了 AM68A 和集成 8TOPS 加速器的 TDA4VM 上的 8 位固定推理性能。报告的性能采用批次 1 和单个 32 位 LPDD4。
网络 | 图像分辨率 | 每秒帧数 (fps) |
---|---|---|
MobileNet_v1 | 224 × 224 | 741 |
Resnet-50 V1.5 | 224 × 224 | 162 |
SSD-MobileNets-V1 | 300 × 300 | 385 |
免责声明:TI 使用 MLPerf 建议的模型和准则进行了边缘 AI 推理基准测试。TI 尚未将结果提交给 MLcommons 组织。