【linux基础】关于ARM板子使用O3编译选项优化

前言

　应领导要求需要将最初级版本的算法移植到ARM板子上，并进行优化，以期达到实时。

平台

移植前：　TX2

移植后：　ARM()

processor    :

model name    : ARMv7 Processor rev  (v7l)

BogoMIPS    : 7.54

Features    : swp half thumb fastmult vfp edsp neon vfpv3 tls vfpd32

CPU implementer    : 0x41

CPU architecture:

CPU variant    : 0x2

CPU part    : 0xc09

CPU revision    : 

Hardware    : Freescale i.MX6 Quad/DualLite (Device Tree)

Revision    :

Serial        :

背景：最早版本在TX２上运行时间大约有６０ms左右。

具体操作

１．ARM环境配置

说实话，这次移植只是将平台换成了ARM,仍然是在ubuntu系统上运行，没什么大的问题。安装需要的库，此处主要是opencv,缺少的添加上去即可，测试的时候遇到一个容易忽略的问题，就是明明有摄像头，测试程序却print没有获取到摄像头，还以为是硬件的问题，后来使用ARM自带的程序测试可以获取到摄像头，原来默认获取的摄像头ID和算法程序中的不一致造成的，这个可以通过插拔摄像头接口，查看硬件部分摄像头连接的是哪个接口，具体使用的命令是：

$ls /dev/vi*

测试读取存储图像耗时：

测试读取摄像头图像耗时：

2. ARM优化

最早是按照neon和浮点加速运算的方向来优化的，只是需要添加一些编译选项即可。

$lscpu

检测neon单元是否存在；

$cat /proc/cpuinfo

Features : swp half thumb fastmult vfp edsp thumbee vfpv3vfpv3d16

检测处理器是否支持neon

$cat /proc/cpuinfo | grep neon

检测系统配置文件确认内核是否使能neon

$zcat /proc/config.gz | grep neon

看是否存在

CONFIG_NEON=y

编译选项

arm-linux-gnueabihf-g++ -O3 -march=armv7-a -mcpu=cortex-a9 -ftree-vectorize -mfpu=neon -mfpu=vfpv3-fp16 -mfloat-abi=hard -ffast-math

发现并没有多大的效果。

测试循环的浮点运算的加速；

发现是否使用-O3这个编译选项的耗时差别比较大。

问题：

g++: error: arm-linux-gnueabihf-gcc: No such file or directory

查看是否有该编译器（使用TAB键补全）

$ arm-linux-gnueabihf-

输出

arm-linux-gnueabihf-addr2line         arm-linux-gnueabihf-gcc-ar-          arm-linux-gnueabihf-nm

arm-linux-gnueabihf-ar                arm-linux-gnueabihf-gcc-nm            arm-linux-gnueabihf-objcopy

arm-linux-gnueabihf-as                arm-linux-gnueabihf-gcc-nm-          arm-linux-gnueabihf-objdump

arm-linux-gnueabihf-c++filt           arm-linux-gnueabihf-gcc-ranlib        arm-linux-gnueabihf-pkg-config

arm-linux-gnueabihf-cpp               arm-linux-gnueabihf-gcc-ranlib-      arm-linux-gnueabihf-python2.-config

arm-linux-gnueabihf-cpp-             arm-linux-gnueabihf-gcov              arm-linux-gnueabihf-python-config

arm-linux-gnueabihf-dwp               arm-linux-gnueabihf-gcov-            arm-linux-gnueabihf-ranlib

arm-linux-gnueabihf-elfedit           arm-linux-gnueabihf-gcov-tool         arm-linux-gnueabihf-readelf

arm-linux-gnueabihf-g++               arm-linux-gnueabihf-gcov-tool-       arm-linux-gnueabihf-run

arm-linux-gnueabihf-g++-             arm-linux-gnueabihf-gprof             arm-linux-gnueabihf-size

arm-linux-gnueabihf-gcc               arm-linux-gnueabihf-ld                arm-linux-gnueabihf-strings

arm-linux-gnueabihf-gcc-             arm-linux-gnueabihf-ld.bfd            arm-linux-gnueabihf-strip

arm-linux-gnueabihf-gcc-ar            arm-linux-gnueabihf-ld.gold

发现有该编译器，但是还是显示没有，不知道为什么，不过改为arm-linux-gnueabihf-g++就可以编译通过。

结论

以目前的结果看来，编译选项-O3已经完成了较高级别的加速，其中应该包括neon和浮点运算。

参考

1.ARM平台NEON指令的编译和优化;

2. 编译选项-O1,-O2,-O3编译优化知多少；

完

秒客网

【linux基础】关于ARM板子使用O3编译选项优化

相关文章