在ARM64平台上测试NEON矩阵运算加速性能。neon带neon加速的程序,non是不带neon加速的程序。
程序输出如下,会体现计算矩阵1000万次的时间和计算结果:
Time taken for 10000000 iterations: 2.014387 seconds Result matrix C: 250.000000 260.000000 270.000000 280.000000 618.000000 644.000000 670.000000 696.000000 986.000000 1028.000000 1070.000000 1112.000000 1354.000000 1412.000000 1470.000000 1528.000000
使用以下命令编译项目:
gcc -o 输出文件名 源文件.c
使用以下命令反编译生成的二进制文件:
objdump -d 可执行文件名 > txt文件