环境如下:
华为FusionCompute,采用虚拟机GPU直通的方式进行部署4块T4卡,全部资源关联给一台虚拟机;
使用的英伟达驱动版本为:NVIDIA-Linux-x86_64-410.104.run
坑点在于:
虚拟化平台本来是6.3.1版本,得知如需使用T4卡,虚拟化平台需升级到8.0.0;后经过评审流程,最终实施升级到了最新8.0.0;但是
我算法平台测试版本为Ubuntu16.04.1 Desktop,经查,虚拟化版本不支持此操作系统,只支持Windows系统相关操作系统,GPU资源组
关联不了测试虚拟机,此刻心中一万个羊驼奔腾而过;继续联系华为处理,后终于得知,版本Ubuntu16.04.5 Server内部测试过可行,
赶紧和算法厂家进行沟通,得知算法平台也支持之后,又在线对虚拟化平台VRM和CNA平台进行了插件升级,终于Ubuntu16.04.5
Server关联到了GPU资源组;
接下来就是安装驱动了!对了,在安装Ubuntu16.04.5时,记得勾选openssh(自己下openssh安装包,老是安装错误)!
将NVIDIA-Linux-x86_64-410.104.run传入/root下
首先需要禁用nouveau;
1.添加conf 文件:cat /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
2. 重新生成 kernel initramfs:
update-initramfs -u
3. 重启:
reboot
接下来安装驱动;
chmod -x NVIDIA-Linux-x86_64-410.104.run
sh NVIDIA-Linux-x86_64-410.104.run
安装错误,提醒缺少GCC,此为离线安装,无法上网;也下载了gcc5.4.0,但是安装时依旧报错,最后干脆将镜像挂载,以下参考大神;
https://blog.csdn.net/hzd12368/article/details/78503315
这里感谢博主解决了一下大问题!
安装gcc、make后!安装nvidia驱动正常!
不容易啊,撒花。。。。结束!