ZHCAD15 August 2023 AM62A3 , AM62A3-Q1 , AM62A7 , AM62A7-Q1
卷积神经网络 (CNN) 非常适合执行 DMS/OMS 系统中所需的多种计算机视觉任务。例如,对于 DMS 系统,第一步是要准确地识别驾驶员眼睛和嘴巴周围的关键点,以实现准确的注视跟踪和疲劳检测。驾驶员互动可能会涉及检测驾驶员的活动,例如,驾驶员手中是否有食物或是否在耳边接听电话,这两项都是物体检测任务。对于乘客监控系统,可以将“后座中的儿童”框定为物体检测任务,而将针对驾驶员和乘客的安全带检查框定为语义分割问题。CNN 可以在 ARM-A53 内核以及 C7/MMA 深度学习加速器上运行。
AM62A 的深度学习加速器是 C7/MMA DSP 引擎,能够提供高达 2TOPS 的性能。它由一个浮点 C7- DSP 组成,此 DSP 与一个矩阵乘法加速器耦合,而该加速器能够在 1 个周期内将两个长度为 32 的 8 位矢量相乘。当时钟频率为 1GHz 并将 MAC 计为两次运算时,它每秒能够执行 2x32x32x1GHz = 2 万亿次运算。矩阵乘法加速器是一种通用加速器,与 A-53 内核相比,在运行典型的卷积神经网络时可将速度提高约 50 倍。
AM62A 的 SDK 支持三种通用的运行时框架,用于部署和执行机器学习模型,也就是:a) tflite 运行时;b) ONNX 运行时;c) TVM。这样,用户就可以在任何地方训练模型,并使用其中一个框架中的业界通用 Python 或 C++ 应用程序编程接口 (API),只需使用几行代码即可将模型部署到硬件中。TIDL 编译工具负责处理将网络以最优方式映射到 AM62A 所需的所有存储器优化工作,从而使用户能够更专注于网络设计和选择。
TI 还提供了模型分析器和模型选择工具 [2],这使第三方感知栈提供商能够选择可在每秒帧数和准确性方面提供更大优势的深度学习模型。例如,表 5-1 展示了使用 SSDLite-MobDet-EdgeTPU-Coco 模型在以 30FPS 的速率运行时实现的性能优势。
型号 | 分辨率 | 目标 FPS | CoCo 上的 MAP 精度 | 延时 (ms) | 深度学习利用率 | DDR 带宽利用率 |
---|---|---|---|---|---|---|
SSDLite-MobDet-. EdgeTPU-coco |
320x320 | 30 | 29.7 | 8.35 | 25% | 504MB/s |