【HPC】MIC和GPU在高性能计算中的使用

时间:2021-02-11 19:39:43

********************************************************************
** 欢迎转发,注明原文:blog.csdn.net/clark_xu   徐长亮的专栏
** 谢谢您的支持,欢迎关注微信公众号:clark_blog 
********************************************************************

1. 安装GPUdirver

dirver名字:NVIDIA-Linux-x86_64-310.40.run

安装前需要把操作系统的运行模式改为文本模式,及修改/etc/inittab运行级别到3.

在相应的目录下,运行./ NVIDIA-Linux-x86_64-310.40.run,开始安装driver

         安装完成之后,运行nvidia-smi–lnvidia-smi –a, nvidia-smi -L可以查看GPU的信息。

2. 安装cuda5.5

2.1基本要求

1、安装前需要把操作系统的运行模式改为文本模式,及修改/etc/inittab运行级别到3

2、不能开启服务器的远程桌面vnc功能,假如已经启用的话请先关闭

chkconfig vncserver off

service vncserver stop

3、对于操作系统为redhat6.0及之后的系统需要手动安装freeglut包假如不安装此包,SDK会无法安装并且进行自带算例演示的时候会报缺少libglut.so库文件,redhat 6.0之前的版本系统光盘会带着个包,手动安装即可,redhat6.0之后系统光盘不再带这个包,需要网上下载后安装

2.2安装过程

2.2.1安装freeglut

从网上下载freeglut-2.8.1.tar.gz,

   tar –zxvf freeglut-2.8.1.tar.gz

   cd  freeglut-2.8.1

   autoupdate

    ./autogen.sh

    ./configure

    autoupdate

    make

    make install

    ln -s/usr/local/lib/libglut.so.3 /usr/lib64/libglut.so(具体路径视安装而定)

    ln -s/usr/local/lib/libglut.so.3 /usr/lib64/libglut.so.3(具体路径视安装而定)

2.2.2安装cuda5.5

假如CUDA版本是5.0之前的版本需手动安装GPU驱动,toolkitSDK.假如CUDA版本是5.0或者5.5的,GPU驱动,toolkit工具和SDK已经合在一个安装包里面下载一个安装包,安装一个包即可。Cuda5.5的包名为cuda_5.5.22_linux_64.run

把安装包上传到服务器

然后执行./cuda_5.0.35_linux_64_rhel6.x-1.run,注意,假如操作系统为RHEL6.0及之后不安装freeglut会有的组件安装失败。根据提示进行安装即可。

2.2.3  配置环境变量

vi /root/.bashrc

export PATH=/usr/local/cuda-5.5/bin:$PATH(具体路径视安装而定)

export LD_LIBRARY_PATH=/usr/local/cuda5.5/lib64:/usr/local/cuda-5.5/lib:$LD_LIBRARY_PATH(具体路径视安装而定)

 

3. MICdriver安装

        首先确保MIC卡能够被正确识别:

     lspci | grep Co-(注意大小写)

正常情况下,应输出类似如下信息:

03:00.0 Co-processor: Intel Corporation Device 225c (rev 11)

有几块卡就会输出几行

驱动名字为:mpss_gold_update_3-2.1.6720-19-rhel-6.3.tar

安装之前关闭防火墙及selinux

tar xzfmpss_gold_update_3-2.1.6720-19-rhel-6.3.tar

sudo rpm –ivh*.rpm

mpss服务必须关闭:servicempss stop

micctrl–initdefaults 初始化配置文件,第一次安装执行

刷新flash

flash版本有更新时需要升级,flash升级,需谨慎,具体升级请联系浪潮工程师。

第一块卡的ip地址为172.31.1.1,第二块卡为172.31.2.1

对应的主机端地址分别为172.31.1.254172.31.2.254

4. intel parallel_studio_xe_2013_update2安装

文件名:parallel_studio_xe_2013_update2.tgz,安装需要证书, Intelparallel studio xe 2013 update2授权文件.lic

第三步选择3,use a license server

        然后输入路径,

5.MIC的使用:

5.1查看信息

我们的MIC driver放在/opt/intel/mic下面

/opt/intel/mic/bin路径下面有很多管理工具,比如运行./micsmc可以查看MIC的温度和功率状态,运行./micinfo可以查看,核数和FW版本等。

5.2 管理MIC

host下,使用ssh mic0,就可以进入mic0的系统里面,可以查看meminfocpuinfo

host下,使用ssh mic1, 就可以进入mic1的系统里面。

第一块卡的ip地址为172.31.1.1,第二块卡为172.31.2.1

对应的主机端地址分别为172.31.1.254172.31.2.254

5.3 MICBIOS设置

Above 4G decoding enable

EIS disable

6.管理GPU

运行nvidia-smi –lnvidia-smi –a, nvidia-smi -L可以查看GPU状态

 

9.软件安装

Mic节点:

mpss_gold_update_3-2.1.6720-19-rhel-6.3.tar安装在/opt/intel/mic下相应的文件夹

intel parallel_studio_xe_2013_update2安装在/opt/intel/parallel_studio_xe_2013.2下相应的文件夹

OpenMPIMPICH安装在/opt/openmpi  /opt/mpich

GPU节点:

OpenMPIMPICH安装在/opt下相应的文件夹下。