【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch解决方法(不用重启)

项目场景：

在带有GPU的linux上执行 "nvidia-smi",提示Failed to initialize NVML: Driver/library version mismatch。因为这个原因，导致我们无法使用GPU，从而无法进行深度学习等相关的任务。另外，因为是实验室的服务器，虽然网上好多人都说，重启 `reboot`指令可以解决问题，但是因为服务器是实验室的，我们不能进行重启。所以我找到了一种不重启，解决这个问题的方法。

问题描述：

系统： Ubuntu18.04
问题：执行nvidia-smi 指令提示：“Failed to initialize NVML: Driver/library version mismatch”，即显卡的驱动和内核版本不匹配
导致问题的原因：我之前没有进行任何和驱动有关的操作，所以导致该问题的原因应该是系统自动更新驱动，导致了版本不匹配的问题，非人为因素。

接下来我们看下具体版本冲突情况：

查看驱动的版本：
dpkg -l | grep nvidia

在这里插入图片描述
我们看到驱动的版本是495.29.95
2. 查看内核的版本

我们看到内核的版本是495.29.44(虽然图上的是44.29.05，但是我之前有问题的时候显示的内核版本号为495.29.44)

原因分析：

由上面的分析，我们知道导致问题的原因是：
Ubuntu显卡驱动自动更新，导致更新后的驱动程序和系统正在使用的内核程序版本不一致了。所以解决问题的思路就是让其版本一致即可。一种方法是重新启动服务器，这样内核会重新加载对应升级后的驱动版本作为内核版本，本文章介绍不用重启的方法。

解决方案：

总体的思路分为两步：

退出当前内核使用的显卡模块
重新加载升级后版本的显卡驱动作为我们的内核模块

指令

sudo rmmod nvidia
sudo nvidia-smi   #nvidia-smi发现没有kernel mod的时候，会自动装载

如果用户正在使用到nvidia的内核，则执行sudo rmmod nvidia指令的时候，会提示如下错误


$ sudo rmmod nvidia
rmmod: ERROR: Module nvidia is in use by: nvidia_modeset nvidia_uvm

查看nvidia模块使用情况


$lsmod | grep nvidia
nvidia_uvm            647168  0
nvidia_drm             53248  0
nvidia_modeset        790528  1 nvidia_drm
nvidia              12144640  152 nvidia_modeset,nvidia_uvm            12144640  152 nvidia_modeset,nvidia_uvm

这就需要我们来手动地关闭nvidia_modset和nvidia_uvm服务。
查看所有的nvidia相关的进程

sudo lsof -n -w  /dev/nvidia*

然后，我们通过kill -9 PID 终止掉和nvidia_uvm,nvidia_modeset有关的进程。然后再重新执行如下的指令

sudo rmmod nvidia
sudo nvidia-smi   #nvidia-smi发现没有kernel mod的时候，会自动装载

最后，正常情况下问题就解决了。
如果还没有解决，通过如下指令终止nvidia的相关服务

sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia

再执行

sudo rmmod nvidia
sudo nvidia-smi   #nvidia-smi发现没有kernel mod的时候，会自动装载

秒客网

【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch解决方法(不用重启)

项目场景：

问题描述：

原因分析：

解决方案：

相关文章