ZHCACB1 February   2023 AM62A3 , AM62A3-Q1 , AM62A7 , AM62A7-Q1

 

  1.   摘要
  2.   商标
  3. 1引言
    1. 1.1 更改 Cortex-A53 时钟频率
  4. 2处理器内核基准测试
    1. 2.1 Dhrystone
  5. 3计算和存储系统基准测试
    1. 3.1 存储器带宽和延迟
      1. 3.1.1 LMBench
      2. 3.1.2 STREAM
      3. 3.1.3 临界存储器访问延迟
    2. 3.2 CoreMark-Pro
    3. 3.3 快速傅里叶变换
    4. 3.4 加密基准测试
  6. 4应用基准测试
    1. 4.1 机器学习推理
  7. 5参考文献

STREAM

STREAM 是测量数据存储系统性能的微基准测试,无需任何数据重复。它旨在不命中高速缓存,执行数据预取和推测性存取。它使用双精度浮点(64 位),但在大多数现代处理器中,存储器访问是瓶颈。四个单项分数包括 copy(复制)、scale(乘常数)、add(数字相加)及 triad(乘法累加)。

  • Copy:在不进行算术运算的情况下测量存储器传输速率,a[i] = b[i]
  • Scale: 包括一个简单的算术运算,a[i] = k × b[i]
  • 加法:除算术运算之外,还包含三个存储器存取,a[i] = b[i] + c[i]
  • triad:将缩放和加法组合到一个运算中,a[i] = b[i] + k × c[i]

对于带宽,每读取一个字节计数为 1,每写入一个字节计数为 1,得到的分数是 LMBench 带宽的两倍。表 3-3 展示了相对于理论线速测得的带宽和效率。使用的线速是 LPDDR4 MT/s 与宽度的乘积。为了获得总体最大吞吐量,使用命令 stream -M 16M -P 4-N 10,这意味着四个并行线程和 10 次迭代。在此测试中,Arm-Cortex-A53 时钟频率设置为 1.4GHz。

表 3-3 流基准测试
LPDDR4-3200MT/s-32 位带宽

LP
DDR4-3200MT/s-32 位效率

复制 7,780 MB/s 61%
乘常数 7,815 MB/s 61%
add 6,868 MB/s 54%
triad 6,871 MB/s 54%