前言:本人做系统集成方面和服务器运维方面的工作,最近一直忙着处理故障,很少总结。难得闲暇,总结下经验,仅作备忘或随笔,或许能帮助被同样问题困扰的家伙,那就更值得了。
华硕ESC4000G2服务器如何使用NVIDIA GRID K2及NVIDIA Tesla K10显卡——VMware ESXI 5.5虚拟机版
一.测试时间:
2018年4月20日 15:14:56
二.测试背景:
如题,ASUS ESC4000 G2服务器安装K2,K10显卡后,现有CONTOS6.5及CENTOS7.2开机均会出现卡住进不去系统的情况(见下图)(其实是驱动冲突引起的,可以解决)。经与服务器售后人员联系,得知此机型的推荐使用环境不是linux系统而是VMware esxi和xenserven 。刚好手头有vmware系统,就测试了在vmware 环境下2种显卡是否能识别和正常安装驱动。
6.5环境下卡住↓
7.2环境下卡住↓
三.测试结果
显卡 |
vSGA共享模式 |
vDGA直通模式 |
备注 |
GRID K2 |
可用 |
可用 |
|
Tesla K10 |
无vmware安装包 |
可用 |
|
K2 K10显卡在vmware 客户端client下均可识别到。
K2显卡用共享模式(VSGA)能安装驱动成功,K10显卡官网下载不到vmware配套驱动。在直通模式(VDGA)下,2种显卡可用,只需要禁用LINUX自带驱动即可。
四.测试过程
(1)
硬件环境:ASUS ESC4000G2 服务器一台。K2 K10显卡各2张
软件环境:vmware esxi 5.5 光盘版和客户端软件 VMware-viclient-all-5.5.0-1618071-5.5.exe
参考网址1:http://blog.51cto.com/dabei/1394323
参考网址2:http://blog.51cto.com/chenchunjia/1952675
NVIDIA 驱动程序下载: http://www.nvidia.cn/Download/index.aspx?lang=cn
(2)
VSGA 显卡共享模式 K2 有对应EXSI 5.5驱动,可以安装成功。K10无对应驱动,可识别,驱动没安装成功。
操作过程见参考网站,很详细了。不再赘述,此处仅记录实际操作命令
执行命令步骤记录:
1、下载对应驱动
略
2、安装NVIDIA驱动
SSH连接主机后,使ESXi主机进入维护模式
# vim-cmd hostsvc/maintenance_mode_enter
# cd /vmfs/volumes/5ad4d811-11783f6c-058e-bcee7b0f75e0/
# cp NVIDIA-kepler-VMware_ESXi_5.5_Host_Driver_367.124
-1OEM.550.0.0.1331820.vib /var/log/vmware/
# cd /var/log/vmware/
# esxcli software vib install -v NVIDIA-kepler-VMware_ESXi_5.5_Host_Driver_367.124-1OEM.
550.0.0.1331820.vib
退出维护模式
# vim-cmd hostsvc/maintenance_mode_exit
检查驱动安装
# esxcli software vib list | grep NVIDIA
3、开启xorg服务
# /etc/init.d/xorg start
# /etc/init.d/xorg status
VDGA显卡直通模式
以K10显卡为例。配置方式如下。
首先BIOS 设置:开启VT-D 模式,默认即为开启,其他选项也默认。登录ESXI主机,开启直通模式,勾选显卡并重启。
新建虚拟机,名字随便起,设置完成编辑虚拟机,添加硬件-PCI设备,可多次选择全部添加进去。
记得在资源-内存页面-勾选全部锁定
配置完毕启动虚拟机,多显卡时出现如下错误提示,需要更改虚拟机配置文件
按照提示下载虚拟机配置文件并在最后添加1行pciHole.start = "1792",然后备份好重新上传。
启动正常,安装centos 6.5系统
出现错误提示:Nouveau kernel driver 这个驱动正在被系统使用,这个驱动和Nvidia驱动冲突,要想继续安装,则必须禁用此驱动
1.打开/etc/modprobe.d/50-blacklist.conf,在里面添加一条:
echo "blacklist nouveau" >> /etc/modprobe.d/50-blacklist.conf
2 在 /boot/grub/grub.conf 里加上 nouveau.modeset=0 参数,以禁止 nouveau KMS 的使用。如果是PAE的内核,则还需要添加 vmalloc=256m 这个参数:
# vi /boot/grub/grub.conf
#修改以下行禁止 nouveau KMS 的使用 kernel /vmlinuz-2.6.32.9-70.fc12.i686.PAE ro root=/dev/mapper/volumeGroup-Root LANG= zh_CN.UTF-8 KEYBOARDTYPE=pc KEYTABLE=us rhgb quiet nouveau.modeset=0 vmalloc=256m
3.重启系统再次装nvidia官网下的驱动就OK了,
若多张卡进系统卡死,需要先用单张卡进系统,装好驱动,改好内核后再添加其余卡。