关于FusionCompute中Ubuntu16.04.5 Server虚拟机安装Nvidia T4 GPU卡的一些坑

时间:2024-04-06 13:58:26

环境如下:

        华为FusionCompute,采用虚拟机GPU直通的方式进行部署4块T4卡,全部资源关联给一台虚拟机;

        使用的英伟达驱动版本为:NVIDIA-Linux-x86_64-410.104.run

坑点在于:

        虚拟化平台本来是6.3.1版本,得知如需使用T4卡,虚拟化平台需升级到8.0.0;后经过评审流程,最终实施升级到了最新8.0.0;但是

我算法平台测试版本为Ubuntu16.04.1 Desktop,经查,虚拟化版本不支持此操作系统,只支持Windows系统相关操作系统,GPU资源组

关联不了测试虚拟机,此刻心中一万个羊驼奔腾而过;继续联系华为处理,后终于得知,版本Ubuntu16.04.5 Server内部测试过可行,

赶紧和算法厂家进行沟通,得知算法平台也支持之后,又在线对虚拟化平台VRM和CNA平台进行了插件升级,终于Ubuntu16.04.5

Server关联到了GPU资源组;

        接下来就是安装驱动了!对了,在安装Ubuntu16.04.5时,记得勾选openssh(自己下openssh安装包,老是安装错误)!

        将NVIDIA-Linux-x86_64-410.104.run传入/root下

        首先需要禁用nouveau;

        1.添加conf 文件:cat /etc/modprobe.d/blacklist-nouveau.conf

        blacklist nouveau

        options nouveau modeset=0

        2. 重新生成 kernel initramfs:
        update-initramfs -u

        3. 重启:
        reboot

        接下来安装驱动;

        chmod -x NVIDIA-Linux-x86_64-410.104.run

        sh NVIDIA-Linux-x86_64-410.104.run

        安装错误,提醒缺少GCC,此为离线安装,无法上网;也下载了gcc5.4.0,但是安装时依旧报错,最后干脆将镜像挂载,以下参考大神;

        https://blog.csdn.net/hzd12368/article/details/78503315

        这里感谢博主解决了一下大问题!

        安装gcc、make后!安装nvidia驱动正常!

       关于FusionCompute中Ubuntu16.04.5 Server虚拟机安装Nvidia T4 GPU卡的一些坑

       不容易啊,撒花。。。。结束!