ZHCADU3 February 2024 AM62A3 , AM62A3-Q1 , AM62A7 , AM62A7-Q1 , AM62P , AM62P-Q1 , DS90UB953A-Q1 , DS90UB960-Q1 , TDES960 , TSER953
我们在各种应用场景中对使用 V3Link 板和 AM62A SK 的四摄像头设置进行了测试,包括直接在屏幕上显示、以太网流式传输(四个 UDP 通道)、录制到 4 个单独的文件以及使用深度学习推理。在每个实验中,我们都会监控帧速率和 CPU 内核的利用率,从而探索整个系统的功能。
如前面的图 4-4 所示,深度学习流水线使用 tiperfoverlay GStreamer 插件在屏幕底部以条形图的形式显示内核负载。默认情况下,该图每两秒更新一次,以利用率百分比形式显示负载。除了 tiperfoverlay GStreamer 插件之外,第二个可直接在终端上显示内核性能的选项是 perf_stats 工具(具有文件保存选项)。此工具相比 tiperfoverlay 更精确,tiperfoverlay 会给 Arm 内核和 DDR 带来额外负载,以绘制图形并在屏幕上叠加。perf_stats 工具主要用于收集本文档中所述所有测试用例中的硬件利用率结果。这些测试中研究的一些重要处理内核和加速器包括主处理器(四个 A53 Arm 内核 @ 1.25GHz)、深度学习加速器 (C7x-MMA @ 850MHz)、具有 VISS 和多标量(MSC0 和 MSC1)的 VPAC (ISP) 以及 DDR 操作。
表 5-1 展示了在三种用例中将 AM62A 与四个摄像头一起使用时的性能和资源利用率,包括将四个摄像头的视频流式传输到显示器、通过以太网进行流式传输以及录制到四个不同的文件。每个用例中都会执行两项测试:仅使用摄像头和使用深度学习推理。此外,表 5-1 中的第一行显示了只有操作系统在 AM62A 上运行而没有任何用户应用程序时的硬件利用率。在评估其他测试用例的硬件利用率时,该值用作比较的基准。如表所示,具有深度学习和屏幕显示功能的四个摄像头以 30FPS 的速率运行,四个摄像头的总速率为 120FPS。这种高帧速率只需深度学习加速器 (C7x-MMA) 满容量的 86% 即可实现。此外,需要注意的是,在这些实验中,深度学习加速器的时钟频率为 850MHz,而不是 1000MHz,后者仅为其最高性能的 85% 左右。
应用 | 流水线(操作) | 输出 | FPS 平均流水线 | FPS 总计 | MPU A53 @ 1.25GHz [%] | MCU R5 [%] | DLA (C7x-MMA) @ 850MHz [%] | VISS [%] | MSC0 [%] | MSC1 [%] | DDR 读取 [MB/s] | DDR 写入 [MB/s] | DDR 总计 [MB/s] |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
无应用 | 基线无操作 | 不适用 | 不适用 | 不适用 | 1.87 | 1 | 0 | 0 | 0 | 0 | 560 | 19 | 579 |
仅限摄像头 | 流式传输到屏幕 | 屏幕 | 30 | 120 | 12 | 12 | 0 | 70 | 61 | 60 | 1015 | 757 | 1782 |
以太网流式传输 | UDP:4 个端口 1920x1080 | 30 | 120 | 23 | 6 | 0 | 70 | 0 | 0 | 2071 | 1390 | 3461 | |
录制到文件 | 4 个文件 1920x1080 | 30 | 120 | 25 | 3 | 0 | 70 | 0 | 0 | 2100 | 1403 | 3503 | |
具有深度学习功能的摄像头 | 深度学习:对象检测 MobV1-coco | 屏幕 | 30 | 120 | 38 | 25 | 86 | 71 | 85 | 82 | 2926 | 1676 | 4602 |
深度学习:对象检测 MobV1-coco 和以太网流式传输 | UDP:4 个端口 1920x1080 | 28 | 112 | 84 | 20 | 99 | 66 | 65 | 72 | 4157 | 2563 | 6720 | |
深度学习:对象检测 MobV1-coco 和录制到文件 | 4 个文件 1920x1080 | 28 | 112 | 87 | 22 | 98 | 75 | 82 | 61 | 2024 | 2458 | 6482 |