ZHCADU3 February   2024 AM62A3 , AM62A3-Q1 , AM62A7 , AM62A7-Q1 , AM62P , AM62P-Q1 , DS90UB953A-Q1 , DS90UB960-Q1 , TDES960 , TSER953

 

  1.   1
  2.   摘要
  3.   商标
  4. 1引言
  5. 2将多个 CSI-2 摄像头连接到 SoC
    1. 2.1 使用 SerDes 的 CSI-2 聚合器
    2. 2.2 不使用 SerDes 的 CSI-2 聚合器
  6. 3在软件中启用多个摄像头
    1. 3.1 摄像头子系统软件架构
    2. 3.2 图像流水线软件架构
  7. 4参考设计
    1. 4.1 支持的摄像头
    2. 4.2 设置四个 IMX219 摄像头
    3. 4.3 配置摄像头和 CSI-2 RX 接口
    4. 4.4 从四个摄像头进行流式传输
      1. 4.4.1 将摄像头数据流化传输到显示器
      2. 4.4.2 通过以太网流式传输摄像头数据
      3. 4.4.3 将摄像头数据存储到文件
    5. 4.5 多摄像头深度学习推理
      1. 4.5.1 模型选择
      2. 4.5.2 流水线设置
  8. 5性能分析
  9. 6总结
  10. 7参考资料

性能分析

我们在各种应用场景中对使用 V3Link 板和 AM62A SK 的四摄像头设置进行了测试,包括直接在屏幕上显示、以太网流式传输(四个 UDP 通道)、录制到 4 个单独的文件以及使用深度学习推理。在每个实验中,我们都会监控帧速率和 CPU 内核的利用率,从而探索整个系统的功能。

如前面的图 4-4 所示,深度学习流水线使用 tiperfoverlay GStreamer 插件在屏幕底部以条形图的形式显示内核负载。默认情况下,该图每两秒更新一次,以利用率百分比形式显示负载。除了 tiperfoverlay GStreamer 插件之外,第二个可直接在终端上显示内核性能的选项是 perf_stats 工具(具有文件保存选项)。此工具相比 tiperfoverlay 更精确,tiperfoverlay 会给 Arm 内核和 DDR 带来额外负载,以绘制图形并在屏幕上叠加。perf_stats 工具主要用于收集本文档中所述所有测试用例中的硬件利用率结果。这些测试中研究的一些重要处理内核和加速器包括主处理器(四个 A53 Arm 内核 @ 1.25GHz)、深度学习加速器 (C7x-MMA @ 850MHz)、具有 VISS 和多标量(MSC0 和 MSC1)的 VPAC (ISP) 以及 DDR 操作。

表 5-1 展示了在三种用例中将 AM62A 与四个摄像头一起使用时的性能和资源利用率,包括将四个摄像头的视频流式传输到显示器、通过以太网进行流式传输以及录制到四个不同的文件。每个用例中都会执行两项测试:仅使用摄像头和使用深度学习推理。此外,表 5-1 中的第一行显示了只有操作系统在 AM62A 上运行而没有任何用户应用程序时的硬件利用率。在评估其他测试用例的硬件利用率时,该值用作比较的基准。如表所示,具有深度学习和屏幕显示功能的四个摄像头以 30FPS 的速率运行,四个摄像头的总速率为 120FPS。这种高帧速率只需深度学习加速器 (C7x-MMA) 满容量的 86% 即可实现。此外,需要注意的是,在这些实验中,深度学习加速器的时钟频率为 850MHz,而不是 1000MHz,后者仅为其最高性能的 85% 左右。

表 5-1 与 4 个 IMX219 摄像头配合使用来实现屏幕显示、以太网流式传输、录制到文件和执行深度学习推理时 AM62A 的性能 (FPS) 和资源利用率
应用流水线(操作)输出FPS 平均流水线FPS 总计MPU A53 @ 1.25GHz [%]MCU R5 [%]DLA (C7x-MMA) @ 850MHz [%]VISS [%]MSC0 [%]MSC1 [%]DDR 读取 [MB/s]DDR 写入 [MB/s]DDR 总计 [MB/s]
无应用基线无操作不适用不适用不适用1.871000056019579
仅限摄像头流式传输到屏幕屏幕301201212070616010157571782
以太网流式传输UDP:4 个端口 1920x10803012023607000207113903461
录制到文件4 个文件 1920x10803012025307000210014033503
具有深度学习功能的摄像头深度学习:对象检测 MobV1-coco屏幕30120382586718582292616764602
深度学习:对象检测 MobV1-coco 和以太网流式传输UDP:4 个端口 1920x108028112842099666572415725636720
深度学习:对象检测 MobV1-coco 和录制到文件4 个文件 1920x108028112872298758261202424586482